論文の概要: TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG
- arxiv url: http://arxiv.org/abs/2511.09803v1
- Date: Fri, 14 Nov 2025 01:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.494563
- Title: TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG
- Title(参考訳): TARG: 効率的なRAGのための学習自由適応型検索ゲーティング
- Authors: Yufeng Wang, Lu wei, Haibin Ling,
- Abstract要約: トレーニングフリーのAdaptive Retrieval Gating (TARG) は、ベースモデルからの短い非遅延ドラフトのみを使用していつ取得するかを決定する、単発のポリシーである。
NQ-Open、TriviaQA、PopQAでは、TARGは一貫して精度と効率のフロンティアをシフトさせる。
- 参考スコア(独自算出の注目度): 46.122203287541005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) improves factuality but retrieving for every query often hurts quality while inflating tokens and latency. We propose Training-free Adaptive Retrieval Gating (TARG), a single-shot policy that decides when to retrieve using only a short, no-context draft from the base model. From the draft's prefix logits, TARG computes lightweight uncertainty scores: mean token entropy, a margin signal derived from the top-1/top-2 logit gap via a monotone link, or small-N variance across a handful of stochastic prefixes, and triggers retrieval only when the score exceeds a threshold. The gate is model agnostic, adds only tens to hundreds of draft tokens, and requires no additional training or auxiliary heads. On NQ-Open, TriviaQA, and PopQA, TARG consistently shifts the accuracy-efficiency frontier: compared with Always-RAG, TARG matches or improves EM/F1 while reducing retrieval by 70-90% and cutting end-to-end latency, and it remains close to Never-RAG in overhead. A central empirical finding is that under modern instruction-tuned LLMs the margin signal is a robust default (entropy compresses as backbones sharpen), with small-N variance offering a conservative, budget-first alternative. We provide ablations over gate type and prefix length and use a delta-latency view to make budget trade-offs explicit.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、事実性を改善するが、すべてのクエリの検索は、トークンとレイテンシを膨らませながら品質を損なうことが多い。
本稿では,ベースモデルからの短いテキストのドラフトのみを用いて,検索するタイミングを決定する単一ショットポリシーである,トレーニングフリーな適応検索ゲーティング(TARG)を提案する。
ドラフトの接頭辞から、TARGは、平均トークンエントロピー(平均トークンエントロピー)、モノトンリンクを介してトップ-1/トップ-2ロジットギャップから導出されるマージン信号、あるいはいくつかの確率的接頭辞の小さなN分散を計算し、スコアがしきい値を超えた場合にのみ検索をトリガーする。
ゲートはモデルに依存しず、数十から数百のトークンしか追加せず、追加の訓練や補助的なヘッドを必要としない。
NQ-Open、TriviaQA、およびPopQAでは、TARGは、Always-RAGと比較して常に精度と効率のフロンティアをシフトしている。
現代の命令チューニング LLM において、マージン信号は安定なデフォルト(エントロピー圧縮はバックボーンを鋭くする)であり、小さなN分散は保守的で予算第一の代替手段を提供する。
ゲートタイプとプレフィックス長の短縮を提供し、デルタ遅延ビューを使用して予算トレードオフを明確にする。
関連論文リスト
- RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - OG-Rank: Learning to Rank Fast and Slow with Uncertainty and Reward-Trend Guided Adaptive Exploration [5.524931642256774]
臨床医は、リアルタイムで機能し、選択を正当化するランキングシステムが必要です。
OG-Rank は単復号器方式で、プールされた第一音素信号と不確実な説明ステップとをペアリングする。
モデルは、全ての候補を1回のパスでスコア付けし、リストが真に曖昧である場合にのみ、短い構造化された論理を生成する。
論文 参考訳(メタデータ) (2025-10-20T15:00:02Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Rethinking Weight Decay for Robust Fine-Tuning of Foundation Models [27.847140934456288]
本稿では,新しい重み劣化手法Selective Projection Decay (SPD)を提案する。
SPDは特定の層に強いペナルティを課し、他の層は自由に変更できる。
SPDを搭載した場合、Adamはベンチマーク上でより優れた分散ロバスト性とアウト・オブ・ディストリビュート性能を提供する。
論文 参考訳(メタデータ) (2024-11-03T23:36:53Z) - The Power of Regularization in Solving Extensive-Form Games [28.043425786728157]
より弱い仮定かより強い収束保証を条件として,ゲームのファンクションペイオフの正規化に基づく,一連の新しいアルゴリズムを提案する。
我々の知る限り、これらは、非摂動EFGのNEを求める際に、最先端の平均収束率と整合しながら、CFR型アルゴリズムの最終的な収束結果を構成する。
論文 参考訳(メタデータ) (2022-06-19T22:10:38Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。