論文の概要: ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
- arxiv url: http://arxiv.org/abs/2505.15182v1
- Date: Wed, 21 May 2025 06:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.030424
- Title: ReflAct: World-Grounded Decision Making in LLM Agents via Goal-State Reflection
- Title(参考訳): ReflAct: ゴール状態反射によるLLMエージェントのワールドグラウンド決定
- Authors: Jeonghye Kim, Sojeong Rhee, Minbeom Kim, Dohyung Kim, Sangmook Lee, Youngchul Sung, Kyomin Jung,
- Abstract要約: ReflActは、推論を単に次のアクションを計画することから、その目標に対してエージェントの状態を継続的に反映することに移行する。
決定を明示的に下し、進行中のゴールアライメントを実施することで、ReflActは戦略的信頼性を劇的に向上します。
- 参考スコア(独自算出の注目度): 23.460586661354775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in LLM agents have largely built on reasoning backbones like ReAct, which interleave thought and action in complex environments. However, ReAct often produces ungrounded or incoherent reasoning steps, leading to misalignment between the agent's actual state and goal. Our analysis finds that this stems from ReAct's inability to maintain consistent internal beliefs and goal alignment, causing compounding errors and hallucinations. To address this, we introduce ReflAct, a novel backbone that shifts reasoning from merely planning next actions to continuously reflecting on the agent's state relative to its goal. By explicitly grounding decisions in states and enforcing ongoing goal alignment, ReflAct dramatically improves strategic reliability. This design delivers substantial empirical gains: ReflAct surpasses ReAct by 27.7% on average, achieving a 93.3% success rate in ALFWorld. Notably, ReflAct even outperforms ReAct with added enhancement modules (e.g., Reflexion, WKM), showing that strengthening the core reasoning backbone is key to reliable agent performance.
- Abstract(参考訳): LLMエージェントの最近の進歩は、複雑な環境における思考と行動のインターリーブであるReActのようなバックボーンの推論に大きく基づいている。
しかし、ReActは、しばしば根拠のない、あるいは一貫性のない推論ステップを生成し、エージェントの実際の状態と目標の間に不一致をもたらす。
我々の分析では、これはReActが一貫した内部信念とゴールアライメントを維持することができず、複合的な誤りや幻覚を引き起こすことに起因している。
これを解決するために、我々はReflActという新しいバックボーンを紹介します。これは、推論を単に次のアクションを計画することから、エージェントの状態に対してその目標に対して継続的に反映することに移行するものです。
決定を明示的に下し、進行中のゴールアライメントを実施することで、ReflActは戦略的信頼性を劇的に向上します。
ReflActは平均でReActを27.7%上回り、ALFWorldで93.3%の成功率を達成した。
特に、ReflActは強化モジュール(例えば、Reflexion、WKM)を追加してReActよりも優れており、コア推論バックボーンの強化が信頼できるエージェントパフォーマンスの鍵であることを示している。
関連論文リスト
- RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。
挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-30T17:00:48Z) - OmniReflect: Discovering Transferable Constitutions for LLM agents via Neuro-Symbolic Reflections [0.8123746895372843]
我々は,複雑なタスクにおけるLarge Language Model (LLM)エージェントのパフォーマンスを改善するためのリフレクション駆動フレームワークであるOmniReflectを紹介する。
我々はNeural、Reflex、NeuroSymbolicの手法を採用し、文脈適応性と計算効率のバランスを提供する。
実験結果の平均は、ALFWorldで+10.3%、BabyAIで+23.8%、PDDLで+8.3%という、タスクの成功の大きな改善を示している。
論文 参考訳(メタデータ) (2025-06-20T19:38:21Z) - Reasoning with Exploration: An Entropy Perspective on Reinforcement Learning for LLMs [112.40801692473723]
強化学習(RL)の中心的目標としてのバランシング探索と活用
エントロピーに基づく項による優位関数の増大という,1行のコードのみによる標準RLへの最小限の修正を導入する。
提案手法は,非常に大きなK値を用いて評価しても,Pass@K測定値において有意な利得が得られる。
論文 参考訳(メタデータ) (2025-06-17T17:54:03Z) - MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。
リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。
提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T03:37:33Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.093659272414527]
本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-21T13:20:39Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。