論文の概要: ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures
- arxiv url: http://arxiv.org/abs/2604.21232v1
- Date: Thu, 23 Apr 2026 02:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.268886
- Title: ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures
- Title(参考訳): ReCAPA: カスケード障害を軽減するための階層的予測補正
- Authors: Xiyin Zeng, Yuyu Sun, Haoyang Li, Shouqiang Liu, Hao Wang,
- Abstract要約: 予測とコントラストを用いて3つのレベル(アクション、サブゴール、トラジェクトリ)の偏差を調整するフレームワークを提案する。
タスクにおけるエラーの伝搬と回復の過程を定量化する2つの新しい指標を導入する。
実験の結果、ReCAPAはVisualAgentBench、MineDojo、AI2-THORなどの組み込みエージェントベンチマークで競合する結果を得た。
- 参考スコア(独自算出の注目度): 11.399289646886968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action systems follow instructions to execute multi-step tasks in multimodal environments. Recent VLA approaches typically rely on post-hoc correction mechanisms or operate under fixed task decompositions and alignment schemes. However, once an intermediate step is mis-specified, local errors propagate through subsequent steps and eventually accumulate into cascading failures. To mitigate this compounding effect, we propose Predictive Alignment and Planning Architecture, a framework that uses prediction and contrast to adjust deviations across three levels: actions, subgoals, and trajectories. Semantic alignment is enforced at all levels using a Sinkhorn-based module and a Score-field module. The predictive correction and alignment jointly update the action generator during training, enabling it to adjust fine-grained steps to remain aligned with the overall intent. We further introduce two new metrics to quantify error propagation and recovery processes in tasks, capturing how mistakes spread and fade over long-horizon execution. Experiments show that ReCAPA achieves competitive results on embodied agent benchmarks such as VisualAgentBench, MineDojo, and AI2-THOR, outperforming strong proprietary and open-source Large Language Model baselines.
- Abstract(参考訳): Vision-Language-Action システムはマルチモーダル環境でマルチステップタスクを実行するための命令に従う。
最近のVLAアプローチは一般的にポストホック補正機構に依存し、固定されたタスク分解とアライメントスキームの下で動作している。
しかし、一旦中間ステップが誤って特定されると、局所誤差はその後のステップを通して伝播し、最終的にカスケード障害に蓄積する。
この複合効果を緩和するため,予測アライメント・アンド・プランニング・アーキテクチャ(Predictive Alignment and Planning Architecture)を提案する。
セマンティックアライメントは、SinkhornベースのモジュールとScore-fieldモジュールを使用して、すべてのレベルで実施される。
予測補正とアライメントは、トレーニング中にアクションジェネレータを共同で更新する。
さらに、タスクにおけるエラーの伝播とリカバリのプロセスを定量化するための2つの新しい指標を導入します。
実験によると、ReCAPAは、VisualAgentBench、MineDojo、AI2-THORといったエンボディエージェントベンチマークの競合的な結果を達成し、強力なプロプライエタリでオープンソースのLarge Language Modelベースラインを上回っている。
関連論文リスト
- AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation [3.503249117641051]
本稿では3つのコアイノベーションを組み込んだ階層的誤り訂正グラフフレームワークfor AutonomousAgentswithLLM-BasedActionGeneration(HECG)を提案する。
MDTS:タスク品質指標(Q),信頼性/コスト指標(C),報酬指標(R),LLMに基づく意味推論スコア(LLM-Score)を統合することで,MDTSは定量的パフォーマンスと意味的コンテキストの多次元的アライメントを実現する。
EMC:単純な混乱行列や全体的なパフォーマンス指標とは異なり、EMCはエラーをStrategy Whe(Strategy Whe)やScript(Script)といった10のタイプに分類することで、タスク障害の構造化された属性を提供する。
論文 参考訳(メタデータ) (2026-03-09T13:46:00Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models [42.553888395227766]
本稿では、視覚言語アクション(VLA)モデルのための軽量でトレーニング不要なフレームワークを提案する。
VLA-SCTは自己修正制御ループとして動作し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。
本手法は,LIBEROベンチマークのすべてのデータセットに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-02-02T08:44:40Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - OTARo: Once Tuning for All Precisions toward Robust On-Device LLMs [21.55040910903597]
OTARoはデバイス上の大規模言語モデルで量子化精度を柔軟に切り替えることができる新しい手法である。
すべての精度で一貫して強固で堅牢なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-17T08:56:27Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。