論文の概要: Reflecting with Two Voices: A Co-Adaptive Dual-Strategy Framework for LLM-Based Agent Decision Making
- arxiv url: http://arxiv.org/abs/2512.08366v1
- Date: Tue, 09 Dec 2025 08:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.883362
- Title: Reflecting with Two Voices: A Co-Adaptive Dual-Strategy Framework for LLM-Based Agent Decision Making
- Title(参考訳): 2声の反射:LDMに基づくエージェント決定のための協調適応デュアルストラテジーフレームワーク
- Authors: Wentao Zhang, Qunbo Wang, Tao Zhang, Junsheng Wu, Hongping Gan, Yang Liu, Ling Dai, Shizhuang Deng, Shuntong Sun,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、しばしば外部のデモンストレーションや検索拡張計画に依存している。
本研究では,DuSARを提案する。DuSARは1つの凍結LDMが共適応推論を行うことを可能にするデモフリーフレームワークである。
ALFWorldとMind2Webでは、DuSARはオープンソースのLLMで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 24.534365665776672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents often rely on external demonstrations or retrieval-augmented planning, leading to brittleness, poor generalization, and high computational overhead. Inspired by human problem-solving, we propose DuSAR (Dual-Strategy Agent with Reflecting) - a demonstration-free framework that enables a single frozen LLM to perform co-adaptive reasoning via two complementary strategies: a high-level holistic plan and a context-grounded local policy. These strategies interact through a lightweight reflection mechanism, where the agent continuously assesses progress via a Strategy Fitness Score and dynamically revises its global plan when stuck or refines it upon meaningful advancement, mimicking human metacognitive behavior. On ALFWorld and Mind2Web, DuSAR achieves state-of-the-art performance with open-source LLMs (7B-70B), reaching 37.1% success on ALFWorld (Llama3.1-70B) - more than doubling the best prior result (13.0%) - and 4.02% on Mind2Web, also more than doubling the strongest baseline. Remarkably, it reduces per-step token consumption by 3-9X while maintaining strong performance. Ablation studies confirm the necessity of dual-strategy coordination. Moreover, optional integration of expert demonstrations further boosts results, highlighting DuSAR's flexibility and compatibility with external knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、しばしば外部のデモンストレーションや検索拡張計画に依存し、不安定さ、一般化の貧弱、高い計算オーバーヘッドにつながる。
人間の問題解決にインスパイアされたDuSAR(Dual-Strategy Agent with Reflecting)は、1つの凍結LDMが2つの相補的戦略、すなわちハイレベルな全体計画と状況に応じたローカルポリシーによって共適応推論を行うことができるデモフリーのフレームワークである。
これらの戦略は軽量なリフレクション機構を通じて相互作用し、エージェントはストラテジー・フィトネススコアを通じて進捗を継続的に評価し、人間のメタ認知的行動を模倣して、意味のある進歩の時にそのグローバルプランを動的に修正する。
ALFWorld と Mind2Web では、DuSAR はオープンソース LLM (7B-70B) で最先端のパフォーマンスを達成し、ALFWorld (Llama3.1-70B) で37.1% の成功を達成した。
注目すべきは、強力なパフォーマンスを維持しながら、ステップ単位のトークン消費を3~9倍削減することだ。
アブレーション研究は二重戦略調整の必要性を裏付けるものである。
さらに、専門家によるデモンストレーションのオプション統合により結果はさらに向上し、DuSARの柔軟性と外部知識との互換性が強調される。
関連論文リスト
- Graph-Enhanced Policy Optimization in LLM Agent Training [3.177432419321498]
グループベース強化学習(RL)は複雑な推論や数学的タスクにおいて顕著な結果を示した。
グループベース強化学習(RL)は複雑な推論や数学的タスクにおいて顕著な結果を示した。
論文 参考訳(メタデータ) (2025-10-30T08:53:41Z) - Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts [63.412646471177645]
会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。
RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。
実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-09-30T11:12:01Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - OmniReflect: Discovering Transferable Constitutions for LLM agents via Neuro-Symbolic Reflections [0.8123746895372843]
我々は,複雑なタスクにおけるLarge Language Model (LLM)エージェントのパフォーマンスを改善するためのリフレクション駆動フレームワークであるOmniReflectを紹介する。
我々はNeural、Reflex、NeuroSymbolicの手法を採用し、文脈適応性と計算効率のバランスを提供する。
実験結果の平均は、ALFWorldで+10.3%、BabyAIで+23.8%、PDDLで+8.3%という、タスクの成功の大きな改善を示している。
論文 参考訳(メタデータ) (2025-06-20T19:38:21Z) - LLM Agents for Bargaining with Utility-based Feedback [23.357706450282002]
ユーティリティベースのフィードバックを中心とした包括的フレームワークを導入する。
1)新しいベンチマークデータセットであるBargainArena,(2)ユーティリティ理論にインスパイアされた人力による経済的な評価指標,(3)LCMを反復的にバリ取り戦略を洗練させる構造的フィードバックメカニズムである。
論文 参考訳(メタデータ) (2025-05-29T02:07:27Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Retrieval-Augmented Hierarchical in-Context Reinforcement Learning and Hindsight Modular Reflections for Task Planning with LLMs [8.55917897789612]
本研究では,大規模言語モデルを対象とした検索言語強化学習(RAHL)を提案する。
RAHLはLLMベースの高レベルポリシーを使用して複雑なタスクをサブタスクに分解する。
その結果, RAHLは5エピソードで9%, 42%, 10%のパフォーマンス向上が達成できた。
論文 参考訳(メタデータ) (2024-08-12T22:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。