Fugu-MT 論文翻訳(概要): Devil's Advocate: Anticipatory Reflection for LLM Agents

論文の概要: Devil's Advocate: Anticipatory Reflection for LLM Agents

arxiv url: http://arxiv.org/abs/2405.16334v4
Date: Thu, 20 Jun 2024 19:41:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 19:16:56.820311
Title: Devil's Advocate: Anticipatory Reflection for LLM Agents
Title（参考訳）: Devil's Advocate: LLMエージェントの予測反射
Authors: Haoyu Wang, Tao Li, Zhiwei Deng, Dan Roth, Yang Li,
Abstract要約: 我々のアプローチは、LLMエージェントに対して、与えられたタスクを管理可能なサブタスクに分解するように促す。イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(introspective intervention)を3回実施する。潜在的な障害の予測と、アクション実行前の代替策。サブタスクの目的とのポストアクションアライメントと、計画実行における最大限の努力を保証するための改善によるバックトラック。
参考スコア（独自算出の注目度）: 53.897557605550325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we introduce a novel approach that equips LLM agents with introspection, enhancing consistency and adaptability in solving complex tasks. Our approach prompts LLM agents to decompose a given task into manageable subtasks (i.e., to make a plan), and to continuously introspect upon the suitability and results of their actions. %; and when necessary, to explore ``the road not taken.'' We implement a three-fold introspective intervention: 1) anticipatory reflection on potential failures and alternative remedy before action execution, 2) post-action alignment with subtask objectives and backtracking with remedy to ensure utmost effort in plan execution, and 3) comprehensive review upon plan completion for future strategy refinement. By deploying and experimenting with this methodology -- a zero-shot approach -- within WebArena for practical tasks in web environments, our agent demonstrates superior performance with a success rate of 23.5% over existing zero-shot methods by 3.5%. The experimental results suggest that our introspection-driven approach not only enhances the agent's ability to navigate unanticipated challenges through a robust mechanism of plan execution, but also improves efficiency by reducing the number of trials and plan revisions by 45% needed to achieve a task.
Abstract（参考訳）: 本研究では,LLMエージェントにイントロスペクションを付与し,複雑なタスクを解く上での一貫性と適応性を向上する手法を提案する。我々のアプローチは, LLMエージェントに対して, あるタスクを管理可能なサブタスク(つまり計画の作成)に分解し, それらの動作の適合性や結果について継続的に検査するように促す。 %,必要であれば,< the road not taken。「''3倍の内観的介入を実施します。 1) 行動実行前の潜在的な失敗及び代替策の予見 2 計画実行における最大限の努力を確保するため、サブタスク目標との事後調整及び救済の事後追跡 3)今後の戦略改善に向けた計画完了に関する総合的な見直し。この手法(ゼロショット方式)をWeb環境で実践的なタスクのためにWebArena内にデプロイし,実験することにより,既存のゼロショット方式よりも23.5%の精度で優れた性能を示す。実験結果から,我々のイントロスペクション駆動型アプローチは,計画実行の堅牢なメカニズムを通じて未予測課題をナビゲートするエージェントの能力を向上するだけでなく,課題達成に必要な試行回数と計画修正を45%削減することで効率を向上させることが示唆された。

関連論文リスト

Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。 GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文参考訳（メタデータ） (2026-02-03T11:41:02Z)
ReflexGrad: Three-Way Synergistic Architecture for Zero-Shot Generalization in LLM Agents [0.0]
ReflexGradは、3つの相補的なメカニズムを密に結合する新しいアーキテクチャである。本システムは, 純粋意味論的推論により, 真のゼロショット一般化を実現する。我々の研究は、相補的な学習機構の相補的な統合が、堅牢なゼロショット一般化を可能にすることを実証している。
論文参考訳（メタデータ） (2025-11-18T15:25:05Z)
SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。 SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文参考訳（メタデータ） (2025-07-10T05:38:15Z)
Conditional Multi-Stage Failure Recovery for Embodied Agents [17.95974193288372]
ゼロショット連鎖プロンプトを用いた条件付き多段階故障復旧フレームワークを提案する。我々は,TEACHデータセットのTfDベンチマークを用いて評価を行い,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-07-08T14:23:41Z)
MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文参考訳（メタデータ） (2025-05-27T03:37:33Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
MPO: Boosting LLM Agents with Meta Plan Optimization [37.35230659116656]
大規模言語モデル(LLM)により、エージェントは対話的な計画タスクにうまく取り組むことができる。既存のアプローチは、しばしば幻覚の計画に悩まされ、新しいエージェントごとに再訓練を必要とする。本稿では,明示的なガイダンスを直接組み込んでエージェント計画機能を向上させるメタプラン最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T14:54:45Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
ConceptAgent: LLM-Driven Precondition Grounding and Tree Search for Robust Task Planning and Execution [33.252158560173655]
ConceptAgentは、非構造化環境でのタスク実行用に設計された自然言語駆動のロボットプラットフォームである。本研究では,1)不可能な行動の防止と回復を目的とした述語接地,2)自己反射を用いたLLM誘導モンテカルロ木探索の具体化など,欠点を抑えるために設計されたイノベーションを提案する。
論文参考訳（メタデータ） (2024-10-08T15:05:40Z)
Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
本稿では,高速なタスク分解とアロケーションプロセスを活用するマルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークを提案する。提案フレームワークにフィードバックループを組み込んで,そのような問題解決プロセスの有効性と堅牢性をさらに向上させる。
論文参考訳（メタデータ） (2024-10-03T04:07:51Z)
Retrieval-Augmented Hierarchical in-Context Reinforcement Learning and Hindsight Modular Reflections for Task Planning with LLMs [8.55917897789612]
本研究では,大規模言語モデルを対象とした検索言語強化学習(RAHL)を提案する。 RAHLはLLMベースの高レベルポリシーを使用して複雑なタスクをサブタスクに分解する。その結果, RAHLは5エピソードで9%, 42%, 10%のパフォーマンス向上が達成できた。
論文参考訳（メタデータ） (2024-08-12T22:40:01Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文参考訳（メタデータ） (2022-05-28T17:59:00Z)
Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。 Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文参考訳（メタデータ） (2020-05-12T17:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。