論文の概要: ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
- arxiv url: http://arxiv.org/abs/2505.15182v1
- Date: Wed, 21 May 2025 06:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.030424
- Title: ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
- Title(参考訳): ReflAct: ゴール状態反射によるLLMエージェントのワールドグラウンド決定
- Authors: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung,
- Abstract要約: ReflActは、推論を単に次のアクションを計画することから、その目標に対してエージェントの状態を継続的に反映することに移行する。
決定を明示的に下し、進行中のゴールアライメントを実施することで、ReflActは戦略的信頼性を劇的に向上します。
- 参考スコア(独自算出の注目度): 23.460586661354775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in LLM agents have largely built on reasoning backbones like ReAct, which interleave thought and action in complex environments. However, ReAct often produces ungrounded or incoherent reasoning steps, leading to misalignment between the agent's actual state and goal. Our analysis finds that this stems from ReAct's inability to maintain consistent internal beliefs and goal alignment, causing compounding errors and hallucinations. To address this, we introduce ReflAct, a novel backbone that shifts reasoning from merely planning next actions to continuously reflecting on the agent's state relative to its goal. By explicitly grounding decisions in states and enforcing ongoing goal alignment, ReflAct dramatically improves strategic reliability. This design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7% on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM), showing that strengthening the core reasoning backbone is key to reliable agent performance.
- Abstract(参考訳): LLMエージェントの最近の進歩は、複雑な環境における思考と行動のインターリーブであるReActのようなバックボーンの推論に大きく基づいている。
しかし、ReActは、しばしば根拠のない、あるいは一貫性のない推論ステップを生成し、エージェントの実際の状態と目標の間に不一致をもたらす。
我々の分析では、これはReActが一貫した内部信念とゴールアライメントを維持することができず、複合的な誤りや幻覚を引き起こすことに起因している。
これを解決するために、我々はReflActという新しいバックボーンを紹介します。これは、推論を単に次のアクションを計画することから、エージェントの状態に対してその目標に対して継続的に反映することに移行するものです。
決定を明示的に下し、進行中のゴールアライメントを実施することで、ReflActは戦略的信頼性を劇的に向上します。
ReflActは平均でReActを27.7%上回り、ALFWorldで93.3%の成功率を達成した。
特に、ReflActは強化モジュール(例えば、Reflexion、WKM)を追加してReActよりも優れており、コア推論バックボーンの強化が信頼できるエージェントパフォーマンスの鍵であることを示している。
関連論文リスト
- LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.093659272414527]
本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-21T13:20:39Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。