Fugu-MT 論文翻訳(概要): Conditional Multi-Stage Failure Recovery for Embodied Agents

論文の概要: Conditional Multi-Stage Failure Recovery for Embodied Agents

arxiv url: http://arxiv.org/abs/2507.06016v1
Date: Tue, 08 Jul 2025 14:23:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.159832
Title: Conditional Multi-Stage Failure Recovery for Embodied Agents
Title（参考訳）: 浸漬剤の条件付き多段故障回復
Authors: Youmna Farag, Svetlana Stoyanchev, Mohan Li, Simon Keizer, Rama Doddipatla,
Abstract要約: ゼロショット連鎖プロンプトを用いた条件付き多段階故障復旧フレームワークを提案する。我々は,TEACHデータセットのTfDベンチマークを用いて評価を行い,最先端の性能を実現する。
参考スコア（独自算出の注目度）: 17.95974193288372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Embodied agents performing complex tasks are susceptible to execution failures, motivating the need for effective failure recovery mechanisms. In this work, we introduce a conditional multistage failure recovery framework that employs zero-shot chain prompting. The framework is structured into four error-handling stages, with three operating during task execution and one functioning as a post-execution reflection phase. Our approach utilises the reasoning capabilities of LLMs to analyse execution challenges within their environmental context and devise strategic solutions. We evaluate our method on the TfD benchmark of the TEACH dataset and achieve state-of-the-art performance, outperforming a baseline without error recovery by 11.5% and surpassing the strongest existing model by 19%.
Abstract（参考訳）: 複雑なタスクを実行するエージェントは、実行障害の影響を受けやすく、効果的な障害復旧メカニズムの必要性を動機付けている。本研究では,ゼロショット連鎖プロンプトを用いた条件付き多段階故障復旧フレームワークを提案する。フレームワークは4つのエラー処理ステージで構成されており、3つのタスク実行中に動作し、1つは実行後のリフレクションフェーズとして機能する。提案手法は, LLMの推論能力を活用し, 環境条件下での実行課題を分析し, 戦略的解決策を考案する。提案手法はTEACHデータセットのTfDベンチマークを用いて評価し,誤差回復のないベースラインを11.5%上回り,最強の既存モデルを19%上回った。

関連論文リスト

Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。 GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文参考訳（メタデータ） (2026-02-03T11:41:02Z)
How Do LLMs Fail In Agentic Scenarios? A Qualitative Analysis of Success and Failure Scenarios of Various LLMs in Agentic Simulations [0.0]
ツール使用機能を備えた自律型エージェントとして運用する場合,大規模言語モデル(LLM)がいかに失敗するかを検討する。上座エージェントメリット指数(KAMI)v0.1ベンチマークを用いて、3つの代表モデルから900の実行トレースを解析した。 4つの繰り返し発生する障害アーチタイプを識別する:接地なしでの未熟なアクション、欠落したエンティティを置換する過剰なヘルパフルネス、イントラクタによるコンテキスト汚染に対する脆弱性、脆弱な実行。
論文参考訳（メタデータ） (2025-12-08T12:27:15Z)
ReflexGrad: Three-Way Synergistic Architecture for Zero-Shot Generalization in LLM Agents [0.0]
ReflexGradは、3つの相補的なメカニズムを密に結合する新しいアーキテクチャである。本システムは, 純粋意味論的推論により, 真のゼロショット一般化を実現する。我々の研究は、相補的な学習機構の相補的な統合が、堅牢なゼロショット一般化を可能にすることを実証している。
論文参考訳（メタデータ） (2025-11-18T15:25:05Z)
Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search [70.63903518295785]
モンテカルロ木探索によるエージェント強化学習フレームワークRepoSearch-R1を紹介する。 RepoSearch-R1に基づいて,リポジトリ質問応答タスク用に設計されたRepoQA-Agentを構築する。
論文参考訳（メタデータ） (2025-10-30T09:10:36Z)
Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning [49.290631188365786]
Scaf-GRPOは、モデルの独立した学習が停滞した時に介入するトレーニングフレームワークである。これはQwen2.5-Math-7Bモデルのパス@1スコアを、バニラGRPOベースラインよりも44.3%向上させる。この結果から、我々のフレームワークは、それまで到達範囲を超えていた問題を解決するモデルの能力を解き放つ、堅牢で効果的な方法論を提供することを示した。
論文参考訳（メタデータ） (2025-10-22T17:41:30Z)
Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文参考訳（メタデータ） (2025-07-22T09:26:00Z)
RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism [10.288667305064065]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。 LLMは、静的な内部知識のために、幻覚または時代遅れの応答を生成する傾向にある。 Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を目的としている。
論文参考訳（メタデータ） (2025-06-30T09:02:45Z)
MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning [33.009759731505746]
ツール統合を含む複雑なタスクは、大規模言語モデルにとって大きな課題となる。リフレクションはエージェントベンチマークにおける誤った軌道の修正に有効な戦略として現れている。提案するMIRRORは,実行前に意図した動作を批判的に評価するフレームワークと,軌道のさらなる調整を行うインターリフレクションの両方からなるフレームワークである。
論文参考訳（メタデータ） (2025-05-27T03:37:33Z)
Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文参考訳（メタデータ） (2025-05-20T08:21:00Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
InvFussion: Bridging Supervised and Zero-shot Diffusion for Inverse Problems [76.39776789410088]
この研究は、教師付きアプローチの強いパフォーマンスとゼロショットメソッドの柔軟性を組み合わせたフレームワークを導入している。新規なアーキテクチャ設計では、分解演算子を直接デノイザにシームレスに統合する。 FFHQとImageNetデータセットの実験結果は、最先端の後方サンプリング性能を示している。
論文参考訳（メタデータ） (2025-04-02T12:40:57Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。 14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Devil's Advocate: Anticipatory Reflection for LLM Agents [53.897557605550325]
我々のアプローチは、LLMエージェントに対して、与えられたタスクを管理可能なサブタスクに分解するように促す。イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(introspective intervention)を3回実施する。潜在的な障害の予測と、アクション実行前の代替策。サブタスクの目的とのポストアクションアライメントと、計画実行における最大限の努力を保証するための改善によるバックトラック。
論文参考訳（メタデータ） (2024-05-25T19:20:15Z)
Building Robust Ensembles via Margin Boosting [98.56381714748096]
敵のロバスト性においては、単一のモデルは通常、全ての敵の攻撃に対して十分な力を持っていない。我々は最大利得のアンサンブルを学習するアルゴリズムを開発した。提案アルゴリズムは,既存のアンサンブル技術に勝るだけでなく,エンド・ツー・エンドで訓練された大規模モデルにも勝ることを示す。
論文参考訳（メタデータ） (2022-06-07T14:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。