論文の概要: Integrating Domain Knowledge for Financial QA: A Multi-Retriever RAG Approach with LLMs
- arxiv url: http://arxiv.org/abs/2512.23848v1
- Date: Mon, 29 Dec 2025 20:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.200986
- Title: Integrating Domain Knowledge for Financial QA: A Multi-Retriever RAG Approach with LLMs
- Title(参考訳): 金融QAのためのドメイン知識の統合: LLMを用いたマルチリレーバーRAGアプローチ
- Authors: Yukun Zhang, Stefan Elbl Droguett, Samyak Jain,
- Abstract要約: 我々は、外部ドメイン知識と内部質問コンテキストの両方を検索するために、マルチレトリバー検索 Augmented Generators システムを実装した。
SecBERTエンコーダを用いたドメイン固有のトレーニングは、私たちの最高の神経シンボルモデルに大きく貢献する。
- 参考スコア(独自算出の注目度): 13.368251290146794
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This research project addresses the errors of financial numerical reasoning Question Answering (QA) tasks due to the lack of domain knowledge in finance. Despite recent advances in Large Language Models (LLMs), financial numerical questions remain challenging because they require specific domain knowledge in finance and complex multi-step numeric reasoning. We implement a multi-retriever Retrieval Augmented Generators (RAG) system to retrieve both external domain knowledge and internal question contexts, and utilize the latest LLM to tackle these tasks. Through comprehensive ablation experiments and error analysis, we find that domain-specific training with the SecBERT encoder significantly contributes to our best neural symbolic model surpassing the FinQA paper's top model, which serves as our baseline. This suggests the potential superior performance of domain-specific training. Furthermore, our best prompt-based LLM generator achieves the state-of-the-art (SOTA) performance with significant improvement (>7%), yet it is still below the human expert performance. This study highlights the trade-off between hallucinations loss and external knowledge gains in smaller models and few-shot examples. For larger models, the gains from external facts typically outweigh the hallucination loss. Finally, our findings confirm the enhanced numerical reasoning capabilities of the latest LLM, optimized for few-shot learning.
- Abstract(参考訳): 本研究は、金融におけるドメイン知識の欠如により、財務数値推論質問応答(QA)タスクの誤りに対処する。
近年のLarge Language Models (LLMs) の進歩にもかかわらず、金融における特定のドメイン知識と複雑な多段階の数値推論を必要とするため、財政的な数値問題はまだ難しいままである。
我々は、外部ドメイン知識と内部質問コンテキストの両方を検索し、最新のLCMを用いてこれらのタスクに取り組むために、マルチリトリーバー検索拡張ジェネレータ(RAG)システムを実装した。
包括的アブレーション実験とエラー解析により、SecBERTエンコーダを用いたドメイン固有トレーニングが、ベースラインとして機能するFinQA論文の上位モデルを上回る最高の神経シンボルモデルに大きく貢献することがわかった。
これは、ドメイン固有のトレーニングの潜在的な優れたパフォーマンスを示唆している。
さらに,我々の最良プロンプトベースLCMジェネレータは,最先端のSOTA(State-of-the-art (SOTA))性能を7%に向上させることができた。
本研究は,小規模モデルにおける幻覚の喪失と外部知識の獲得とのトレードオフを明らかにする。
より大きなモデルの場合、外部の事実から得られる利益は幻覚の損失を上回る。
最後に,数発の学習に最適化された最新のLCMの数値推論能力の強化を確認した。
関連論文リスト
- Generating Data-Driven Reasoning Rubrics for Domain-Adaptive Reward Modeling [21.45871501724415]
高精度な推論モデルエラーを自動的に構築するデータ駆動型手法を提案する。
ラグビーはより強力なLSM-as-judge報酬関数を構築するのに使うことができる。
この拡張は、ゴールドラベルの完全なデータセットなしで複雑な技術的問題を解決するモデルを教えるための扉を開く。
論文 参考訳(メタデータ) (2026-02-06T15:51:52Z) - Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。
CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。
提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文 参考訳(メタデータ) (2025-10-09T20:29:00Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning [29.526711154687945]
FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。
認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。
実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
論文 参考訳(メタデータ) (2025-06-18T06:21:50Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Bridging Language Models and Financial Analysis [49.361943182322385]
大規模言語モデル(LLM)の急速な進歩は、自然言語処理における変換可能性の解放をもたらした。
財務データは、しばしばテキストコンテンツ、数値表、および視覚チャートの複雑な関係に埋め込まれる。
LLM研究における急速なイノベーションのペースにもかかわらず、金融業界における彼らの実践的採用には大きなギャップが残っている。
論文 参考訳(メタデータ) (2025-03-14T01:35:20Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Multi-Reranker: Maximizing performance of retrieval-augmented generation in the FinanceRAG challenge [5.279257531335345]
本稿では,ACM-ICAIF '24 FinanceRAGコンペティションのための,高性能で財務特化度の高いRetrieval-Augmented Generation(RAG)システムの開発について述べる。
我々は,検索前段階におけるクエリ拡張とコーパスの洗練に関するアブレーション研究を通じて,性能を最適化した。
特に,生成フェーズの長いコンテキストサイズを管理するための効率的な手法を導入し,性能を犠牲にすることなく応答品質を大幅に改善した。
論文 参考訳(メタデータ) (2024-11-23T09:56:21Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
本稿では,ドメイン固有タスクのための細調整型大規模言語モデル (LLM) の詳細な解析を行う。
ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略ではないことが分かりました。
我々は、Phi-3-Miniのような小さなモデルが、どのようにして最先端の結果が得られるかを実証する。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。