論文の概要: BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.20084v1
- Date: Tue, 19 May 2026 16:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.529736
- Title: BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation
- Title(参考訳): BalanceRAG:Cascaded Retrieval-Augmented Generationのための共同リスクキャリブレーション
- Authors: Zijun Jia, Yuanchang Ye, Sen Jia, Yiyao Qian, Haoning Wang, Baojie Chen, Diyin Tang, Jinsong Yu, Zhiyuan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、検索強化世代(RAG)を通して事実性を高めることができる
モデルのみの回答が信頼できる場合には、すべてのクエリにRAGを適用する必要はない。
我々は、しきい値ペアを目標リスクレベルで認証する BalanceRAG を開発した。
- 参考スコア(独自算出の注目度): 8.129733777508434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can enhance factuality via retrieval-augmented generation (RAG), but applying RAG to every query is unnecessary when the model-only answer is reliable. This motivates cascaded RAG: each query is first handled by an LLM-only branch, escalated to a RAG fallback only if the primary branch is uncertain, and abstained from when neither branch is sufficiently trustworthy. However, calibrating such cascades stage by stage may be conservative, since the final utility depends on joint uncertainty thresholding of LLM-only and RAG. In this work, we develop BalanceRAG to certify threshold pairs at a target risk level. Given uncertainty scores from the two branches, BalanceRAG frames each threshold pair as an operating point on a two-dimensional lattice and identifies safe operating points using sequential graphical testing. This enables risk-adaptive threshold calibration, controlling the system-level error rate among accepted points, while retaining more examples. Furthermore, BalanceRAG extends to multi-risk calibration, allowing retrieval usage to be bounded together with the selection-conditioned risk. Experiments on three open-domain question answering (QA) benchmarks across multiple LLM backbones demonstrate that BalanceRAG meets prescribed risk levels, preserves higher coverage and more accepted correct examples, and reduces unnecessary retrieval calls compared with always-on RAG.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索拡張生成(RAG)を通じて事実性を高めることができるが、モデルのみの回答が信頼できる場合には、すべてのクエリにRAGを適用することは不要である。
各クエリはまずLLMのみのブランチで処理され、プライマリブランチが不確実な場合にのみRAGフォールバックにエスカレーションされ、どちらのブランチも十分に信頼できない場合に中断される。
しかし, これらのカスケードを段階別に調整することは保守的であり, 最終効用はLDMのみとRAGのみの関節不確実性閾値に依存する。
本研究では,しきい値ペアを目標リスクレベルで認証する BalanceRAG を開発した。
2つの枝から不確実点が与えられたとき、BaairRAGは各閾値ペアを2次元格子上の操作点としてフレーム化し、シーケンシャルなグラフィカルなテストを用いて安全な操作点を識別する。
これにより、リスク適応しきい値のキャリブレーションが可能になり、受理点間のシステムレベルのエラー率を制御するとともに、より多くの例を保持することができる。
さらに、 BalanceRAG はマルチリスクキャリブレーションに拡張され、選択条件付きリスクとともに検索利用がバウンドされる。
複数のLCMバックボーンにまたがる3つのオープンドメイン質問応答(QA)ベンチマークの実験では、Ba balanceRAGは所定のリスクレベルを満たし、より高いカバレッジとより受け入れられた正しい例を保持し、常時オンのRAGと比較して不要な検索コールを減らすことが示されている。
関連論文リスト
- Beyond Semantic Relevance: Counterfactual Risk Minimization for Robust Retrieval-Augmented Generation [19.888565537472363]
CoRM-RAG(Counterfactual Risk Minimization for RAG)は、検索と意思決定の安全性を一致させるフレームワークである。
トレーニング中にユーザのバイアスをシミュレートする認知摂動プロトコルを導入し,それを軽量なエビデンス・クリティカルに蒸留する。
このスコアリングモジュールは、対向的なクエリの摂動にも拘わらず、モデルの正しさを判断するために十分な明らかな強度を持つ文書を特定することを学習する。
論文 参考訳(メタデータ) (2026-05-02T07:22:24Z) - URAG: A Benchmark for Uncertainty Quantification in Retrieval-Augmented Large Language Models [35.441039437111606]
URAGは、医療、プログラミング、科学、数学、一般的なテキストなど、さまざまな分野にわたるRAGシステムの不確実性を評価するために設計されたベンチマークである。
評価パイプラインを8つの標準RAG手法に適用し,LACとAPSの計測値に基づいて,精度と予測セットのサイズを両立させ,その性能を計測する。
論文 参考訳(メタデータ) (2026-03-02T00:22:06Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - CONFLARE: CONFormal LArge language model REtrieval [0.0]
Retrieval-augmented Generation (RAG)フレームワークは、大規模言語モデル(LLM)が知識ベースから関連する情報を検索し、応答を生成するコンテキストに組み込むことを可能にする。
RAGは、検索が必要な情報を応答生成のコンテキストとして識別できない場合、有効な応答を保証しない。
本稿では,RAGフレームワークにおける検索不確実性を定量化するために,共形予測を適用するための4段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-04T02:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。