論文の概要: Leveraging Large Language Models to Democratize Access to Costly Financial Datasets for Academic Research
- arxiv url: http://arxiv.org/abs/2412.02065v1
- Date: Tue, 03 Dec 2024 00:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:04.381398
- Title: Leveraging Large Language Models to Democratize Access to Costly Financial Datasets for Academic Research
- Title(参考訳): 大規模言語モデルを活用して費用対効果のある学術研究データセットへのアクセスを民主化
- Authors: Julian Junyan Wang, Victor Xiaoqi Wang,
- Abstract要約: GPT-4o-mini を用いた新たな手法の開発と評価を行った。
提案手法は,約1万件のプロキシステートメントとCAM(Critical Audit Matters)から1万2000件以上の10-Kの書類から,CEOの給与比率を収集する上で,人間レベルの精度を実現する。
これは、手作業による収集に要する数百時間や、商用データベースのサブスクリプションに要する数千ドルとは対照的である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Unequal access to costly datasets essential for empirical research has long hindered researchers from disadvantaged institutions, limiting their ability to contribute to their fields and advance their careers. Recent breakthroughs in Large Language Models (LLMs) have the potential to democratize data access by automating data collection from unstructured sources. We develop and evaluate a novel methodology using GPT-4o-mini within a Retrieval-Augmented Generation (RAG) framework to collect data from corporate disclosures. Our approach achieves human-level accuracy in collecting CEO pay ratios from approximately 10,000 proxy statements and Critical Audit Matters (CAMs) from more than 12,000 10-K filings, with LLM processing times of 9 and 40 minutes respectively, each at a cost under $10. This stands in stark contrast to the hundreds of hours needed for manual collection or the thousands of dollars required for commercial database subscriptions. To foster a more inclusive research community by empowering researchers with limited resources to explore new avenues of inquiry, we share our methodology and the resulting datasets.
- Abstract(参考訳): 実験研究に欠かせない費用のかかるデータセットへのアクセスは、長年不利な機関の研究者を妨げ、彼らの分野に貢献し、キャリアを前進させる能力を制限してきた。
近年のLLM(Large Language Models)のブレークスルーは、構造化されていないソースからのデータ収集を自動化することで、データアクセスを民主化する可能性がある。
GPT-4o-mini を用いた新たな手法の開発と評価を行った。
提案手法では,約10,000のプロキシステートメントと12,000以上の10-KファイルからCAM(Critical Audit Matters)からCEOの給与比率を,それぞれ9分40分,それぞれ10ドル以下のコストで収集する。
これは、手作業による収集に要する数百時間や、商用データベースのサブスクリプションに要する数千ドルとは対照的である。
限られた資源を持つ研究者に新たな調査の道を探らせることで、より包括的な研究コミュニティを育むために、我々の方法論と結果のデータセットを共有します。
関連論文リスト
- SynDL: A Large-Scale Synthetic Test Collection for Passage Retrieval [30.269970599368815]
TRECディープラーニングトラック(Deep Learning Track, DL)テストコレクションを言語モデル合成ラベルによって拡張し, 研究者が大規模に検索システムをテストおよび評価できるようにする。
具体的には、このようなテストコレクションには、前年のトラックから1,900以上のテストクエリが含まれている。
システム評価を過去の人間ラベルと比較し, 人工的に作成した大規模テストコレクションがシステムランキングに高い相関性をもたらすことを確認した。
論文 参考訳(メタデータ) (2024-08-29T07:20:56Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Making LLMs Worth Every Penny: Resource-Limited Text Classification in
Banking [3.9412826185755017]
LLM(Lew-shot and Large Language Model)は、クラス毎にたった1~5つの例で効果的に機能する。
我々の研究は、バンクス77財務意図検出データセットによるこれらの手法のパフォーマンスとコストのトレードオフに対処する。
今後の研究に刺激を与えるため、人間の専門家によるBanking77のキュレートされたサブセットと、広範なエラー分析を提供する。
論文 参考訳(メタデータ) (2023-11-10T15:10:36Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。