論文の概要: SLO-Conditioned Action Routing for Retrieval-Augmented Generation: Objective Ablation and Failure Modes
- arxiv url: http://arxiv.org/abs/2601.00841v1
- Date: Sat, 27 Dec 2025 15:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.773882
- Title: SLO-Conditioned Action Routing for Retrieval-Augmented Generation: Objective Ablation and Failure Modes
- Title(参考訳): SLO-Conditioned Action Routing for Retrieval-Augmented Generation: Objective Ablation and Failure Modes
- Authors: Bharath Nunepalli,
- Abstract要約: この作業では、クエリ毎の制御を、検索深さと生成モード(ガードされている対auto)を選択する、あるいは拒否する、小さな個別アクションとしてモデル化する。
オフラインログデータセットは、それぞれのアクションと記録精度、トークンコスト、幻覚/拒絶指標、SLO重み付き報酬を実行することにより、SQuAD 2.0から構築される。
2つのシンプルな政策学習目標が評価され、国家ごとの最良の行動の教師付き分類と報酬重み付き変種が評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) introduces a practical control problem: retrieval depth and generation behavior must be chosen per query to satisfy service-level objectives (SLOs) such as cost, refusal rate, and hallucination risk. This work models per-query control as a small discrete action: choose a retrieval depth and a generation mode (guarded vs. auto), or refuse. An offline logged dataset is constructed from SQuAD 2.0 by executing each action and recording accuracy, token cost, hallucination/refusal indicators, and an SLO-weighted reward. Two simple policy-learning objectives are evaluated: supervised classification of the per-state best action (Argmax-CE) and a reward-weighted variant (Argmax-CE-WT). Across the evaluated settings, a strong fixed baseline (low k, guarded prompting) performs competitively; learned policies mainly provide additional cost savings under a quality-focused SLO and can exhibit refusal collapse under a cheap SLO when refusal is heavily rewarded. The contribution is a reproducible case study of SLO-aware control for RAG pipelines, emphasizing failure modes and reporting conventions rather than proposing a new retriever or language model.
- Abstract(参考訳): 検索深度と生成行動は、コスト、拒絶率、幻覚リスクなどのサービスレベル目標(SLO)を満たすためにクエリ毎に選択されなければならない。
この作業では、クエリ単位のコントロールを、検索深さと生成モード(ガードされた対オート)を選択する、あるいは拒否する、小さな個別アクションとしてモデル化する。
オフラインログデータセットは、それぞれのアクションと記録精度、トークンコスト、幻覚/拒絶指標、SLO重み付き報酬を実行することにより、SQuAD 2.0から構築される。
各州別ベストアクション(Argmax-CE)と報酬重み付き変種(Argmax-CE-WT)の教師付き分類が評価された。
評価設定全体では、強い固定ベースライン(低k、ガード付きプロンプト)が競争力を発揮し、学習ポリシは主に品質重視のSLOの下で追加のコスト削減を提供し、拒絶が大きな報酬を受けると、安価なSLOの下での拒絶崩壊を示すことができる。
このコントリビューションは、RAGパイプラインに対するSLO対応制御の再現可能なケーススタディであり、新しいレトリバーや言語モデルの提案よりも、障害モードと報告規約を強調している。
関連論文リスト
- Information-Theoretic Reward Modeling for Stable RLHF: Detecting and Mitigating Reward Hacking [78.69179041551014]
本稿では,インフォメーション・ボトルネックの原理に基づく情報理論報酬モデリングフレームワークを提案する。
InfoRMは、報酬の一般化を緩和するために、嗜好に無関係な情報をフィルタリングする。
IBLは分散レベルの正規化であり、そのような偏差を罰し、最適化の展望を効果的に拡張する。
論文 参考訳(メタデータ) (2025-10-15T15:51:59Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - A Voter-Based Stochastic Rejection-Method Framework for Asymptotically Safe Language Model Outputs [0.0]
本稿では,LLMの安全性を活用して,安全でない,あるいは低品質な大規模言語モデル(LLM)の出力を防止する手法を提案する。
このシステムでは、LCMチェッカーが生成した出力の受理性に投票し、不承認のしきい値に達すると再生する。
論文 参考訳(メタデータ) (2024-07-24T04:27:55Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。