論文の概要: BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search
- arxiv url: http://arxiv.org/abs/2601.11037v1
- Date: Fri, 16 Jan 2026 07:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.385096
- Title: BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search
- Title(参考訳): BAPO:信頼性のあるエージェント検索のための境界対応ポリシー最適化
- Authors: Shiyu Liu, Yongjing Yin, Jianhao Yan, Yunbo Tang, Qinggang Zhang, Bei Li, Xin Chen, Jingang Wang, Xunliang Cai, Jinsong Su,
- Abstract要約: バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
- 参考スコア(独自算出の注目度): 72.87861928940929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RL-based agentic search enables LLMs to solve complex questions via dynamic planning and external search. While this approach significantly enhances accuracy with agent policies optimized via large-scale reinforcement learning, we identify a critical gap in reliability: these agents fail to recognize their reasoning boundaries and rarely admit ``I DON'T KNOW'' (IDK) even when evidence is insufficient or reasoning reaches its limit. The lack of reliability often leads to plausible but unreliable answers, introducing significant risks in many real-world scenarios. To this end, we propose Boundary-Aware Policy Optimization (BAPO), a novel RL framework designed to cultivate reliable boundary awareness without compromising accuracy. BAPO introduces two key components: (i) a group-based boundary-aware reward that encourages an IDK response only when the reasoning reaches its limit, and (ii) an adaptive reward modulator that strategically suspends this reward during early exploration, preventing the model from exploiting IDK as a shortcut. Extensive experiments on four benchmarks demonstrate that BAPO substantially enhances the overall reliability of agentic search.
- Abstract(参考訳): RLに基づくエージェントサーチにより、LLMは動的計画と外部探索によって複雑な問題を解くことができる。
この手法は大規模強化学習によって最適化されたエージェントポリシーで精度を著しく向上させるが、信頼性の重大なギャップを識別する。これらのエージェントは推論境界を認識しず、証拠が不十分な場合や推論が限界に達する場合であっても、"I DON'T KNOW'" (IDK) をほとんど認めない。
信頼性の欠如は、多くの現実のシナリオで重大なリスクを生じさせるため、妥当だが信頼性の低い答えにつながることが多い。
そこで本稿では,境界認識の精度を損なうことなく,信頼性の高い境界認識を育むための新しいRLフレームワークであるBundary-Aware Policy Optimization (BAPO)を提案する。
BAPOは2つの重要なコンポーネントを導入している。
(i)IDK応答が限界に達したときのみ、グループベースの境界対応報酬
二 早期探索中にこの報酬を戦略的に停止する適応報酬変調器であって、モデルがIDKをショートカットとして活用することを防止すること。
4つのベンチマークにおいて、BAPOはエージェント検索の全体的な信頼性を大幅に向上させることを示した。
関連論文リスト
- Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents [29.698100324454362]
制約付き最適化は強化学習(RL)における競合する目的を扱う共通のフレームワークを提供する
本稿では,最適化された確実性等価量(OCE)を用いて,報酬値と時間とともにステージごとの特性を示すリスク対応制約付きRLの枠組みを提案する。
本フレームワークは,パラメータ化された強ラグランジアン双対性フレームワークにおいて,適切な制約条件下での元の制約問題と正確に一致することを保証している。
論文 参考訳(メタデータ) (2025-10-23T04:33:32Z) - Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast \& Slow Reasoning for Robust Agent Defense [12.836334933428738]
既存の防御は、有害なユーザ入力や安全でないエージェントの振る舞いによって引き起こされる複雑なセマンティックリスクを捉えるのに苦労する“セーフティチェック(Safety Checks)”に依存している。
我々は新しい防衛フレームワーク ALRPHFS (Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning) を提案する。
ALRPHFS は,(1) リスクパターンの一般化可能な,バランスのとれたライブラリを反復的に洗練するオフライン対向自己学習ループ,(2) 検出効率と計算効率のバランスをとるオンライン階層型高速・低速推論エンジンの2つのコアコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-05-25T18:31:48Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Towards Optimal Adversarial Robust Reinforcement Learning with Infinity Measurement Error [9.473089575932375]
近年の研究は、国家の敵対的堅牢性を達成する上での課題を浮き彫りにしている。
内向的状態適応型マルコフ決定プロセス(ISA-MDP)について紹介する。
DRLの堅牢性の向上は自然環境における性能を損なうものではないことを示す。
論文 参考訳(メタデータ) (2025-02-23T22:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。