論文の概要: Adaptation of Embedding Models to Financial Filings via LLM Distillation
- arxiv url: http://arxiv.org/abs/2512.08088v1
- Date: Mon, 08 Dec 2025 22:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.747499
- Title: Adaptation of Embedding Models to Financial Filings via LLM Distillation
- Title(参考訳): LLM蒸留によるファイナンシャルフィリングへの埋め込みモデルの適応
- Authors: Eliot Brenner, Dominic Seyler, Manjunath Hegde, Andrei Simion, Koustuv Dasgupta, Bing Xiang,
- Abstract要約: 本稿では,基礎として汎用検索埋め込みモデルを用いて,ラベルなしコーパスから特殊モデルを訓練するスケーラブルパイプラインを提案する。
MRR$textt@$5で平均27.7%,DCG$textt@$5で平均44.6%,21,800以上のクエリドキュメントペアで測定された14のファイナンシャルファイリングタイプに対して平均44.6%の改善が得られた。
- 参考スコア(独自算出の注目度): 10.744318713371383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in generative large language models (LLMs), practical application of specialized conversational AI agents remains constrained by computation costs, latency requirements, and the need for precise domain-specific relevance measures. While existing embedding models address the first two constraints, they underperform on information retrieval in specialized domains like finance. This paper introduces a scalable pipeline that trains specialized models from an unlabeled corpus using a general purpose retrieval embedding model as foundation. Our method yields an average of 27.7% improvement in MRR$\texttt{@}$5, 44.6% improvement in mean DCG$\texttt{@}$5 across 14 financial filing types measured over 21,800 query-document pairs, and improved NDCG on 3 of 4 document classes in FinanceBench. We adapt retrieval embeddings (bi-encoder) for RAG, not LLM generators, using LLM-judged relevance to distill domain knowledge into a compact retriever. There are prior works which pair synthetically generated queries with real passages to directly fine-tune the retrieval model. Our pipeline differs from these by introducing interaction between student and teacher models that interleaves retrieval-based mining of hard positive/negative examples from the unlabeled corpus with iterative retraining of the student model's weights using these examples. Each retrieval iteration uses the refined student model to mine the corpus for progressively harder training examples for the subsequent training iteration. The methodology provides a cost-effective solution to bridging the gap between general-purpose models and specialized domains without requiring labor-intensive human annotation.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)の進歩にもかかわらず、特殊な対話型AIエージェントの実践的応用は、計算コスト、レイテンシ要件、正確なドメイン固有の関連性尺度の必要性によって制限されている。
既存の埋め込みモデルは最初の2つの制約に対処するが、金融のような専門分野の情報検索では性能が劣る。
本稿では,基礎として汎用検索埋め込みモデルを用いて,ラベルなしコーパスから特殊モデルを訓練するスケーラブルパイプラインを提案する。
提案手法は,MRR$\texttt{@}$5, 44.6%, 平均DCG$\texttt{@}$5で平均27.7%改善し, 21,800以上のクエリドキュメントペアで測定された14のファイナンシャルファイリングタイプに対して平均44.6%改善し, ファイナンスベンチの4つの文書クラスのうち3つでNDCGを改善した。
我々は LLM ジェネレータではなく, RAG の検索埋め込み (bi-encoder) を LLM ジェネレータではなく LLM ジェネレータに適応させ, ドメイン知識をコンパクトなレトリバーに蒸留する。
検索モデルを直接微調整するために、合成されたクエリを実際のパスと組み合わせる以前の作業がある。
本研究のパイプラインは, 学習者モデルと教師モデル間の相互作用を導入し, 学習者モデルの重みの反復的再学習とラベル付けされていないコーパスからの強正・負のサンプルの抽出をインターリーブするものである。
各検索イテレーションは、改良された学生モデルを使用してコーパスをマイニングし、その後のトレーニングイテレーションの訓練例を徐々に困難にします。
この手法は、労働集約的な人的アノテーションを必要とせず、汎用モデルと専門ドメインのギャップを埋めるコスト効率の良いソリューションを提供する。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - MARAG-R1: Beyond Single Retriever via Reinforcement-Learned Multi-Tool Agentic Retrieval [50.30107119622642]
大規模言語モデル(LLM)は推論と生成において優れているが、本質的には静的事前学習データによって制限されている。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識に基盤を置くことでこの問題に対処する。
MarAG-R1は、LLMが複数の検索機構を動的に調整できる強化学習型マルチツールRAGフレームワークである。
論文 参考訳(メタデータ) (2025-10-31T15:51:39Z) - Large Reasoning Embedding Models: Towards Next-Generation Dense Retrieval Paradigm [16.78399933831573]
本稿では、推論過程を表現学習に統合するLarge Reasoning Embedding Model(LREM)を提案する。
難解なクエリに対して、LREMはまず、元のクエリの深い理解を達成するために推論を行い、その後、検索のための推論拡張クエリ埋め込みを生成する。
この推論プロセスは、元のクエリとターゲットアイテム間のセマンティックギャップを効果的にブリッジし、検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-16T05:37:39Z) - CustomIR: Unsupervised Fine-Tuning of Dense Embeddings for Known Document Corpora [0.0]
CustomIRは、ドメイン固有のコーパスへの言語埋め込みモデルの教師なし適応のためのフレームワークである。
実験の結果、CustomIRはRecall@10の2.3ポイントまでの小さなモデルで検索効率を継続的に改善することがわかった。
これらの結果は、ターゲットとなる合成微調整が、ドメイン固有のパフォーマンスを高めるためのスケーラブルでコスト効率の高い戦略を提供することを示している。
論文 参考訳(メタデータ) (2025-09-30T00:25:47Z) - Don't Retrieve, Generate: Prompting LLMs for Synthetic Training Data in Dense Retrieval [0.0]
効果的な高密度検索モデルの訓練は、典型的には、大きな文書コーパスから抽出した強陰性(HN)の例に依存する。
本稿では,Large Language Model (LLM) を用いたエンドツーエンドパイプラインを提案する。
我々のデータセットは、数学、物理学、計算機科学、および関連する分野を含む様々な領域にまたがる7,250のarXiv抽象データからなる。
論文 参考訳(メタデータ) (2025-04-20T08:34:10Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。