論文の概要: Greenback Bears and Fiscal Hawks: Finance is a Jungle and Text Embeddings Must Adapt
- arxiv url: http://arxiv.org/abs/2411.07142v1
- Date: Mon, 11 Nov 2024 17:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:10.627607
- Title: Greenback Bears and Fiscal Hawks: Finance is a Jungle and Text Embeddings Must Adapt
- Title(参考訳): グリーンバック・ベアーズとフィスカル・ホークス:財務はジャングルとテキストの埋め込み
- Authors: Peter Anderson, Mano Vikash Janardhanan, Jason He, Wei Cheng, Charlie Flanagan,
- Abstract要約: 提案するBAM埋め込みは,14.3Mクエリパスペアのデータセットに微調整されたテキスト埋め込みの集合である。
BAM埋め込みは、保持されたテストセットで62.8%のRecall@1を達成するが、OpenAIから最高の汎用テキスト埋め込みでは39.2%しか得られない。
- 参考スコア(独自算出の注目度): 7.489263049434943
- License:
- Abstract: Financial documents are filled with specialized terminology, arcane jargon, and curious acronyms that pose challenges for general-purpose text embeddings. Yet, few text embeddings specialized for finance have been reported in the literature, perhaps in part due to a lack of public datasets and benchmarks. We present BAM embeddings, a set of text embeddings finetuned on a carefully constructed dataset of 14.3M query-passage pairs. Demonstrating the benefits of domain-specific training, BAM embeddings achieve Recall@1 of 62.8% on a held-out test set, vs. only 39.2% for the best general-purpose text embedding from OpenAI. Further, BAM embeddings increase question answering accuracy by 8% on FinanceBench and show increased sensitivity to the finance-specific elements that are found in detailed, forward-looking and company and date-specific queries. To support further research we describe our approach in detail, quantify the importance of hard negative mining and dataset scale.
- Abstract(参考訳): 金融文書には、専門用語、アルカン・ジャーゴン、および汎用テキストの埋め込みに挑戦する好奇心をそそる頭字語が詰め込まれている。
しかし、ファイナンスに特化したテキスト埋め込みは、おそらくは公開データセットやベンチマークの欠如のために、文献で報告されているものはほとんどない。
提案するBAM埋め込みは,14.3Mのクエリ・パス・ペアを慎重に構築したデータセット上に微調整されたテキストの埋め込みである。
ドメイン固有のトレーニングの利点を示すため、BAM埋め込みは、保持されたテストセットで62.8%のRecall@1を達成する。
さらに、BAM埋め込みは、ファイナンスベンチ上での質問応答精度を8%向上させ、詳細な、前向き、および日付固有のクエリで見られる財務特化要素に対する感度を高める。
さらなる研究を支援するために、我々のアプローチを詳細に説明し、ハード・ネガティブ・マイニングとデータセット・スケールの重要性を定量化する。
関連論文リスト
- $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity [88.78750571970232]
本稿では,クエリ文書マッチングに対する高密度検索者の認識を改善するために,$texttMixGR$を紹介する。
$texttMixGR$は、粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
論文 参考訳(メタデータ) (2024-07-15T13:04:09Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - Enabling and Analyzing How to Efficiently Extract Information from
Hybrid Long Documents with LLMs [48.87627426640621]
本研究は,財務報告から重要な情報を理解するために,大規模言語モデルの可能性を活用することに焦点を当てる。
財務報告から情報を理解し抽出するLLMの能力を高める自動財務情報抽出フレームワークを提案する。
本フレームワークは, GPT-3.5とGPT-4で有効に検証され, 平均精度は53.94%, 33.77%向上した。
論文 参考訳(メタデータ) (2023-05-24T10:35:58Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - SEntFiN 1.0: Entity-Aware Sentiment Analysis for Financial News [0.03018439717785794]
SentFiN 1.0は10,753のニュースヘッドラインとエンティティ・センチメント・アノテーションを備えた人為的注釈付きデータセットです。
本稿では,表現に基づくアプローチではなく,特徴に基づくアプローチを用いて,エンティティ関連感情の抽出を可能にするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-20T18:20:39Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - Author's Sentiment Prediction [13.459029439420872]
PerSenTは、ニュース記事の主要なエンティティに対して著者が表現した感情のクラウドソースアノテーションのデータセットである。
データセットには段落レベルの感情アノテーションが含まれており、タスクのよりきめ細かい監視を提供する。
我々はこのデータセットを5.3kの文書と38kの段落で公開し、エンティティの感情分析の課題として3.2kのユニークなエンティティをカバーした。
論文 参考訳(メタデータ) (2020-11-12T00:03:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。