論文の概要: Asymmetric Actor-Critic for Multi-turn LLM Agents
- arxiv url: http://arxiv.org/abs/2604.00304v1
- Date: Tue, 31 Mar 2026 22:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.758191
- Title: Asymmetric Actor-Critic for Multi-turn LLM Agents
- Title(参考訳): マルチターンLDMエージェントのための非対称アクター臨界
- Authors: Shuli Jiang, Zhaoyang Zhang, Yi Zhang, Shuo Yang, Wei Xia, Stefano Soatto,
- Abstract要約: 信頼性のある対話エージェントのための非対称アクター批判フレームワークを提案する。
強力なプロプライエタリなLLMがアクターとして機能し、小さなオープンソース批評家がランタイムの監視を提供する。
提案手法は,強力な単一エージェントベースラインよりも信頼性とタスク成功を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 50.245019205783855
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) exhibit strong reasoning and conversational abilities, but ensuring reliable behavior in multi-turn interactions remains challenging. In many real-world applications, agents must succeed in one-shot settings where retries are impossible. Existing approaches either rely on reflection or post-hoc evaluation, which require additional attempts, or assume fully trainable models that cannot leverage proprietary LLMs. We propose an asymmetric actor-critic framework for reliable conversational agents. A powerful proprietary LLM acts as the actor, while a smaller open-source critic provides runtime supervision, monitoring the actor's actions and intervening within the same interaction trajectory. Unlike training-based actor-critic methods, our framework supervises a fixed actor operating in open-ended conversational environments. The design leverages a generation-verification asymmetry: while high-quality generation requires large models, effective oversight can often be achieved by smaller ones. We further introduce a data generation pipeline that produces supervision signals for critic fine-tuning without modifying the actor. Experiments on $τ$-bench and UserBench show that our approach significantly improves reliability and task success over strong single-agent baselines. Moreover, lightweight open-source critics rival or surpass larger proprietary models in the critic role, and critic fine-tuning yields additional gains over several state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強い推論能力と会話能力を示すが、マルチターン相互作用における信頼性を保証することは依然として困難である。
多くの現実世界のアプリケーションでは、エージェントは再試行が不可能なワンショット設定で成功しなければなりません。
既存のアプローチはリフレクションやポストホック評価に依存しており、追加の試行が必要になる。
信頼性のある対話エージェントのための非対称アクター批判フレームワークを提案する。
強力なプロプライエタリなLLMがアクターとして機能し、小さなオープンソース批評家が実行時の監視を提供し、アクターの動作を監視し、同じ相互作用軌道内で介入する。
トレーニングベースのアクター批判手法とは異なり、我々のフレームワークはオープンエンドの会話環境で動作する固定アクターを監督する。
高品質な生成には大きなモデルが必要であるが、効果的な監視はより小さなモデルによって達成されることが多い。
さらに、アクターを変更することなく、批判的な微調整のための監視信号を生成するデータ生成パイプラインを導入する。
τ$-benchとUserBenchの実験では、強力な単一エージェントベースラインよりも信頼性とタスク成功が大幅に向上していることが示されています。
さらに、ライトウェイトなオープンソース評論家は、批評家の役割においてより大きなプロプライエタリなモデルに匹敵するか、または超越している。
関連論文リスト
- MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings [2.9017174137438815]
マルチエージェント強化学習(MARL)は一般に、価値関数を推定するために中央集権的な批評家に依存している。
インターネット規模のデータに基づいてトレーニングされた大規模な視覚言語アクションモデル(VLA)は、強力なマルチモーダル推論とゼロショットの一般化能力を示す。
本稿では,MA-VLCM(Multi-Agent Vision-Language-Critic Models)を提案する。
論文 参考訳(メタデータ) (2026-03-16T15:29:41Z) - Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。
Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文 参考訳(メタデータ) (2026-02-03T14:48:12Z) - Actor-Critic without Actor [4.94481688445056]
Actor-Critic without Actor (ACA)はアクターネットワークを排除し、ノイズレベルの批評家の分野から直接アクションを生成する軽量なフレームワークである。
ACAは、標準的なアクター批判法と最先端拡散法の両方と比較して、より好ましい学習曲線と競争性能を達成する。
論文 参考訳(メタデータ) (2025-09-25T11:33:09Z) - The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement [61.00950725408354]
大規模言語モデル(LLM)は、最近、テキストベースのアシスタントから、計画、推論、反復的な行動改善が可能な自律エージェントへと変化した。
本研究では,環境を探索するアクターモデルと,詳細な自然言語フィードバックを生成する批評家モデルからなる,新しい2人プレイヤフレームワークであるCGIを紹介する。
論文 参考訳(メタデータ) (2025-03-20T10:42:33Z) - Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。