論文の概要: InfoPO: Information-Driven Policy Optimization for User-Centric Agents
- arxiv url: http://arxiv.org/abs/2603.00656v1
- Date: Sat, 28 Feb 2026 13:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.312618
- Title: InfoPO: Information-Driven Policy Optimization for User-Centric Agents
- Title(参考訳): InfoPO: ユーザ中心エージェントのための情報駆動型ポリシー最適化
- Authors: Fanqi Kong, Jiayi Zhang, Mingyi Deng, Chenglin Wu, Yuyu Luo, Bang Liu,
- Abstract要約: アクティブな不確実性低減のプロセスとしてマルチターンインタラクションをフレーム化するInfoPOを紹介する。
情報ゲイン報酬を計算し、そのフィードバックがエージェントのその後の行動分布を変化させるクレジットを回す。
そして、この信号とタスク結果とを適応分散ゲート融合により結合する。
- 参考スコア(独自算出の注目度): 39.407032905771885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world user requests to LLM agents are often underspecified. Agents must interact to acquire missing information and make correct downstream decisions. However, current multi-turn GRPO-based methods often rely on trajectory-level reward computation, which leads to credit assignment problems and insufficient advantage signals within rollout groups. A feasible approach is to identify valuable interaction turns at a fine granularity to drive more targeted learning. To address this, we introduce InfoPO (Information-Driven Policy Optimization), which frames multi-turn interaction as a process of active uncertainty reduction and computes an information-gain reward that credits turns whose feedback measurably changes the agent's subsequent action distribution compared to a masked-feedback counterfactual. It then combines this signal with task outcomes via an adaptive variance-gated fusion to identify information importance while maintaining task-oriented goal direction. Across diverse tasks, including intent clarification, collaborative coding, and tool-augmented decision making, InfoPO consistently outperforms prompting and multi-turn RL baselines. It also demonstrates robustness under user simulator shifts and generalizes effectively to environment-interactive tasks. Overall, InfoPO provides a principled and scalable mechanism for optimizing complex agent-user collaboration. Code is available at https://github.com/kfq20/InfoPO.
- Abstract(参考訳): LLMエージェントに対する現実世界のユーザリクエストは、しばしば未特定である。
エージェントは、行方不明の情報を取得し、下流の判断を正さなければならない。
しかし、現在のマルチターンGRPOベースの手法は、しばしば軌道レベルの報酬計算に頼っているため、クレジット割り当ての問題やロールアウトグループ内の有利な信号が不十分である。
実現可能なアプローチは、よりターゲットを絞った学習を促進するために、価値あるインタラクションターンを粒度で特定することです。
これを解決するためにInfoPO(Information-Driven Policy Optimization)を導入し、アクティブな不確実性低減のプロセスとしてマルチターンインタラクションをフレーム化し、フィードバックがエージェントのその後の行動分布をマスクされたフィードバックの反事実よりも確実に変化させる情報ゲイン報酬を算出する。
そして、この信号と適応分散ゲート融合によるタスク結果を組み合わせることで、タスク指向の目標方向を維持しながら、情報の重要性を識別する。
インフォポは、インテントの明確化、コラボレーティブコーディング、ツールの拡張された意思決定など、さまざまなタスクにおいて、プロンプトとマルチターンRLベースラインを一貫して上回っている。
また、ユーザシミュレータのシフトの下で堅牢性を示し、環境相互作用タスクに効果的に一般化する。
全体としてInfoPOは、複雑なエージェントとユーザのコラボレーションを最適化するための、原則付きかつスケーラブルなメカニズムを提供する。
コードはhttps://github.com/kfq20/InfoPO.comで入手できる。
関連論文リスト
- Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization [61.641777037967366]
プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画し、クエリし、相互作用することを目的としている。
エージェント強化学習(RL)は、マルチターン環境でエージェントを訓練するための有望なソリューションとして登場した。
本稿では,行動強化と情報収集能力の強化を両立させたエージェントRLフレームワークであるBAOを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:40:43Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Knowledge Base-Aware Orchestration: A Dynamic, Privacy-Preserving Method for Multi-Agent Systems [39.146761527401424]
我々はKBA(Knowledge Base-Aware)オーケストレーションを導入する。これは動的でプライバシを保存する関連信号で静的記述を強化する新しいアプローチである。
この機構を静的記述と組み合わせることで,より正確で適応的なタスクルーティングを実現する。
ベンチマークの結果、KBAオーケストレーションはルーティング精度とシステム全体の効率性において静的記述駆動手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-09-23T21:46:38Z) - LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文 参考訳(メタデータ) (2025-06-11T03:43:30Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。
MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。
エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文 参考訳(メタデータ) (2023-12-05T06:05:04Z) - Asynchronous Message-Passing and Zeroth-Order Optimization Based Distributed Learning with a Use-Case in Resource Allocation in Communication Networks [11.182443036683225]
分散学習と適応は大きな関心を集め、機械学習信号処理に広く応用されている。
本稿では、エージェントが共通のタスクに向けて協調するシナリオに焦点を当てる。
送信者として働くエージェントは、グローバルな報酬を最大化するために、それぞれのポリシーを共同で訓練する。
論文 参考訳(メタデータ) (2023-11-08T11:12:27Z) - Federated Natural Policy Gradient and Actor Critic Methods for Multi-task Reinforcement Learning [46.28771270378047]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Research on Multi-Agent Communication and Collaborative Decision-Making
Based on Deep Reinforcement Learning [0.0]
本論文は,マルチエージェント・プロキシ・ポリシー最適化アルゴリズムに基づくマルチエージェントの協調的意思決定について考察する。
異なるエージェントは、エージェント間の情報交換を通じて局所的な観測によって引き起こされる非定常性を緩和することができる。
実験結果から,マルチエージェント環境の非定常性を改善する効果が得られた。
論文 参考訳(メタデータ) (2023-05-23T14:20:14Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。