論文の概要: Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval
- arxiv url: http://arxiv.org/abs/2603.26815v1
- Date: Thu, 26 Mar 2026 18:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.639018
- Title: Resolving the Robustness-Precision Trade-off in Financial RAG through Hybrid Document-Routed Retrieval
- Title(参考訳): ハイブリッド文書取引検索によるRAGのロバスト性-精密トレードオフの解消
- Authors: Zhiyuan Cheng, Longying Lai, Yue Liu,
- Abstract要約: Hybrid Document-Routed Retrieval (HDRR)は、SFRを文書フィルタとして使用する2段階アーキテクチャである。
実験の結果,HDRRは各測定値において最高の性能を示した。
- 参考スコア(独自算出の注目度): 7.563079821809866
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems for financial document question answering typically follow a chunk-based paradigm: documents are split into fragments, embedded into vector space, and retrieved via similarity search. While effective in general settings, this approach suffers from cross-document chunk confusion in structurally homogeneous corpora such as regulatory filings. Semantic File Routing (SFR), which uses LLM structured output to route queries to whole documents, reduces catastrophic failures but sacrifices the precision of targeted chunk retrieval. We identify this robustness-precision trade-off through controlled evaluation on the FinDER benchmark (1,500 queries across five groups): SFR achieves higher average scores (6.45 vs. 6.02) and fewer failures (10.3% vs. 22.5%), while chunk-based retrieval (CBR) yields more perfect answers (13.8% vs. 8.5%). To resolve this trade-off, we propose Hybrid Document-Routed Retrieval (HDRR), a two-stage architecture that uses SFR as a document filter followed by chunk-based retrieval scoped to the identified document(s). HDRR eliminates cross-document confusion while preserving targeted chunk precision. Experimental results demonstrate that HDRR achieves the best performance on every metric: an average score of 7.54 (25.2% above CBR, 16.9% above SFR), a failure rate of only 6.4%, a correctness rate of 67.7% (+18.7 pp over CBR), and a perfect-answer rate of 20.1% (+6.3 pp over CBR, +11.6 pp over SFR). HDRR resolves the trade-off by simultaneously achieving the lowest failure rate and the highest precision across all five experimental groups.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) system for financial document questioning are usually follow a chunk-based paradigm: document are split into fragments, embedded into vector space, and retrieved through similarity search。
一般的な環境では有効であるが、この手法は規制出願のような構造的に均質なコーパスにおいて、クロスドキュメント・チャンクの混乱に悩まされる。
セマンティックファイルルーティング(SFR)は、LLM構造化出力を使用して、クエリを全ドキュメントにルーティングするが、壊滅的な障害を低減できるが、ターゲットとするチャンク検索の精度を犠牲にする。
SFRはより高い平均スコア(6.45対6.02)と少ない失敗(10.3%対22.5%)を達成し、チャンクベースの検索(CBR)はより完全な回答(13.8%対8.5%)を得る。
このトレードオフを解決するために,SFRを文書フィルタとして使用する2段階アーキテクチャであるHybrid Document-Routed Retrieval (HDRR)を提案する。
HDRRは、ターゲットのチャンク精度を維持しながら、文書間の混同を取り除く。
実験の結果、HDRRは平均スコア7.54(CBRより25.2%、SFRより16.9%)、失敗率は6.4%、正解率は67.7%(CBRより+18.7pp)、完全解答率は20.1%(CBRより+6.3pp、SFRより+11.6pp)であることがわかった。
HDRRは、5つの実験グループで最低失敗率と最高精度を同時に達成することでトレードオフを解消する。
関連論文リスト
- DeepFact: Co-Evolving Benchmarks and Agents for Deep Research Factuality [49.62610727661819]
既存のファクトチェッカーは主に汎用ドメイン、ファクトイドスタイルの原子クレーム用に設計されている。
本稿では,ベンチマークラベルと有理値が明示的に変更可能なAudit-then-Score (AtS)を提案する。
我々は、AtSを、監査可能な有理量を持つDRR事実性ベンチマークであるDeepFact-Benchとしてインスタンス化する。
論文 参考訳(メタデータ) (2026-03-06T05:05:57Z) - Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks [17.117706938140078]
本稿では,分解フィルタサイクル上に構築された潤滑精製の原理的フレームワークRDを提案する。
RRDは粗いルブリックをきめ細かな識別基準に分解し、カバー範囲を広げ、応答間の分離を鋭くする。
評価とトレーニングの両方で、大きく、一貫した利益をもたらします。
論文 参考訳(メタデータ) (2026-02-04T23:16:09Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Rethinking Retrieval: From Traditional Retrieval Augmented Generation to Agentic and Non-Vector Reasoning Systems in the Financial Domain for Large Language Models [0.0]
本稿では,ベクトルベースエージェントRAGをハイブリッド検索とメタデータフィルタリングを用いて比較した最初の体系的評価を行う。
検索指標(MRR, Recall@5), LLM-as-a-judgeのペア比較, レイテンシ, 前処理コストを計測する。
以上の結果から,金融Q&Aシステムに先進的なRAG技術を適用することにより,検索精度,回答品質が向上し,生産における費用対効果のトレードオフが考慮されることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-22T20:06:25Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z) - Classification or Prompting: A Case Study on Legal Requirements Traceability [4.629156733452248]
法的要件のトレーサビリティは、エンジニアがターゲットのアーティファクトに対する技術的要件を分析するための重要なタスクである。
本稿では,言語モデルに基づく2つの自動解について検討する。
最初のソリューションであるKashifは、文変換器と意味的類似性を利用する分類器である。
第2のソリューションであるRICE_LRTは、プロンプトエンジニアリングフレームワークであるRICEをベースにした、最近のジェネレーティブLLMを誘導する。
論文 参考訳(メタデータ) (2025-02-07T13:33:40Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - End-to-End Sensitivity-Based Filter Pruning [49.61707925611295]
本稿では,各層間のフィルタの重要度を学習するための感度に基づくフィルタプルーニングアルゴリズム(SbF-Pruner)を提案する。
提案手法はフィルタ重みからスコアを学習し,各層のフィルタ間の相関を考慮できる。
論文 参考訳(メタデータ) (2022-04-15T10:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。