論文の概要: Reinforcing Real-world Service Agents: Balancing Utility and Cost in Task-oriented Dialogue
- arxiv url: http://arxiv.org/abs/2602.22697v1
- Date: Thu, 26 Feb 2026 07:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.572037
- Title: Reinforcing Real-world Service Agents: Balancing Utility and Cost in Task-oriented Dialogue
- Title(参考訳): 現実のサービスエージェントの強化:タスク指向対話における実用性とコストのバランス
- Authors: Ning Gao, Wei Zhang, Yuqin Dai, Ling Shi, Ziyin Wang, Yujie Wang, Wei He, Jinpeng Wang, Chaozheng Wang,
- Abstract要約: タスク指向対話を多粒性強化学習プロセスとして再構成するフレームワークであるInteractCS-RLを提案する。
私たちはまず,高忠実度トレーニングジムを提供するために,ユーザ中心のインタラクションフレームワークを構築します。
次に,コスト対応型マルチターンポリシー最適化 (CMPO) を導入する。
- 参考スコア(独自算出の注目度): 28.25180116201176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) has accelerated the transition from conversational chatbots to general agents. However, effectively balancing empathetic communication with budget-aware decision-making remains an open challenge. Since existing methods fail to capture these complex strategic trade-offs, we propose InteractCS-RL, a framework that reframes task-oriented dialogue as a multi-granularity reinforcement learning process. Specifically, we first establish a User-centric Interaction Framework to provide a high-fidelity training gym, enabling agents to dynamically explore diverse strategies with persona-driven users. Then, we introduce Cost-aware Multi-turn Policy Optimization (CMPO) with a hybrid advantage estimation strategy. By integrating generative process credits and employing a PID-Lagrangian cost controller, CMPO effectively guides the policy to explore Pareto boundary between user reward and global cost constraints. Extensive experiments on customized real business scenarios demonstrate that InteractCS-RL significantly outperform other baselines across three evaluation dimensions. Further evaluation on tool-agent-user interaction benchmarks verify InteractCS-RL robustness across diverse domains.
- Abstract(参考訳): LLM(Large Language Models)の急速な進化により、会話型チャットボットから汎用エージェントへの移行が加速された。
しかし、予算を意識した意思決定と共感的コミュニケーションを効果的にバランスさせることは、依然としてオープンな課題である。
既存の手法ではこれらの複雑な戦略的トレードオフを捉えることができないため,多粒性強化学習プロセスとしてタスク指向対話を再構成するフレームワークであるInteractCS-RLを提案する。
具体的には、まず、高忠実度トレーニングジムを提供するためにユーザー中心のインタラクションフレームワークを構築し、エージェントがペルソナ駆動のユーザと多様な戦略を動的に探索できるようにする。
次に,コスト対応型マルチターンポリシー最適化 (CMPO) を導入する。
生成プロセスクレジットの統合とPID-ラグランジアンコストコントローラの採用により、CMPOは、ユーザ報酬とグローバルコスト制約の間のPareto境界を探索するポリシーを効果的にガイドする。
カスタマイズされた実業務シナリオに関する大規模な実験は、InteractCS-RLが3つの評価次元で他のベースラインを大幅に上回っていることを示している。
ツールエージェント-ユーザインタラクションベンチマークのさらなる評価は、さまざまなドメインにわたるInteractCS-RLロバスト性を検証する。
関連論文リスト
- Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization [61.641777037967366]
プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画し、クエリし、相互作用することを目的としている。
エージェント強化学習(RL)は、マルチターン環境でエージェントを訓練するための有望なソリューションとして登場した。
本稿では,行動強化と情報収集能力の強化を両立させたエージェントRLフレームワークであるBAOを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:40:43Z) - ESearch-R1: Learning Cost-Aware MLLM Agents for Interactive Embodied Search via Reinforcement Learning [40.2017873619555]
ESearch-R1はコスト認識型推論フレームワークである。
対話型対話(Ask)、エピソードメモリ検索(GetMemory)、物理ナビゲーション(Navigate)を単一の決定プロセスに統合する。
総運用コストを約50%削減し、タスク成功率を向上させる。
論文 参考訳(メタデータ) (2025-12-21T02:45:08Z) - Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。
RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。
RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文 参考訳(メタデータ) (2025-12-03T08:28:40Z) - Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents [34.720205364467546]
音声テキストのインターリーブを支援する強化学習用サンドボックス環境(RL)を導入する。
我々の中核戦略であるTARL(Turn-level Adjudicated Reinforcement Learning)は、長期的タスクにおけるクレジット割り当ての課題に対処する。
この統一されたアプローチは、強いRLベースラインと比較してテキストベースの$tau$-benchのタスクパス率を6%以上向上させる。
論文 参考訳(メタデータ) (2025-09-17T23:25:00Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - Advancing Language Multi-Agent Learning with Credit Re-Assignment for Interactive Environment Generalization [38.68388721203677]
我々は,新しいマルチエージェントクレジット再割り当て戦略を備えたマルチエージェント強化学習フレームワークであるCollabUIAgentsを提案する。
我々は,マルチエージェントシステムの性能と環境横断の一般化性を両立させることを実証した。
論文 参考訳(メタデータ) (2025-02-20T12:26:15Z) - Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Enabling Real-Time Conversations with Minimal Training Costs [61.80370154101649]
本稿では,2つの言語モデルに対して,最小限の訓練を要し,2つの言語能力を持つ新しい重複復号法を提案する。
実験結果から,本手法はトレーニングコストの最小化とともに,ユーザとAIのインタラクションの自然性と人間的類似性を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T06:27:26Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。