論文の概要: HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation
- arxiv url: http://arxiv.org/abs/2604.18791v1
- Date: Mon, 20 Apr 2026 19:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.465289
- Title: HELM: Harness-Enhanced Long-horizon Memory for Vision-Language-Action Manipulation
- Title(参考訳): HELM:ビジョン・ランゲージ・アクション・マニピュレーションのための高調波長水平メモリ
- Authors: Zijian Zeng, Fei Ding, Huiming Yang, Xianwei Li,
- Abstract要約: VLA(Vision-Language-Action)モデルは、短軸性能が強いにもかかわらず、長軸操作タスクにおいて体系的に失敗する。
この失敗は、現在のリアクティブ実行設定でコンテキスト長だけを拡張することで解決されないことを示す。
HELMは3つのコンポーネントでこれらの欠陥に対処するモデルに依存しないフレームワークである。
- 参考スコア(独自算出の注目度): 2.9231828959903474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models fail systematically on long-horizon manipulation tasks despite strong short-horizon performance. We show that this failure is not resolved by extending context length alone in the current reactive execution setting; instead, it stems from three recurring execution-loop deficiencies: the memory gap, the verification gap, and the recovery gap. We present HELM, a model-agnostic framework that addresses these deficiencies with three components: an Episodic Memory Module (EMM) that retrieves key task history via CLIP-indexed keyframes, a learned State Verifier (SV) that predicts action failure before execution from observation, action, subgoal, and memory-conditioned context, and a Harness Controller (HC) that performs rollback and replanning. The SV is the core learning contribution: it consistently outperforms rule-based feasibility checks and ensemble uncertainty baselines, and its effectiveness depends critically on access to episodic memory. On LIBERO-LONG, HELM improves task success rate by 23.1 percentage points over OpenVLA (58.4% to 81.5%), while extending the context window to H=32 yields only a 5.4-point gain and same-budget LoRA adaptation remains 12.2 points below HELM. HELM also improves long-horizon performance on CALVIN and substantially boosts recovery success under controlled perturbations. Ablations and mechanism analyses isolate the contribution of each component, and we release LIBERO-Recovery as a perturbation-injection protocol for evaluating failure recovery in long-horizon manipulation.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、短軸性能が強いにもかかわらず、長軸操作タスクにおいて体系的に失敗する。
この障害は、現在のリアクティブ実行環境でのみコンテキスト長を拡張することで解決されるのではなく、メモリギャップ、検証ギャップ、リカバリギャップという3つの繰り返し実行ループ障害から発生している。
HELMは、これらの欠陥に対処するモデルに依存しないフレームワークで、CLIPインデックスのキーフレームを介してキータスク履歴を検索するEpsodic Memory Module(EMM)、観察、アクション、サブゴール、メモリ条件のコンテキストから実行前の動作障害を予測する学習状態検証器(SV)、ロールバックとリプランニングを行うHarness Controller(HC)の3つのコンポーネントを提供する。
SVは、ルールベースの実現可能性チェックと不確実性ベースラインのアンサンブルを一貫して上回り、その有効性はエピソードメモリへのアクセスに大きく依存する。
LIBERO-LONGでは、HELMはOpenVLA(58.4%から81.5%)でタスク成功率を23.1ポイント改善し、コンテキストウィンドウをH=32に拡張すると5.4ポイントのゲインしか得られず、同じ予算のLoRA適応はHELMより12.2ポイント低いままである。
HELMはまた、CALVINの長距離性能を改善し、制御された摂動下でのリカバリ成功を大幅に向上させる。
アブレーションとメカニズム解析により各コンポーネントの寄与を分離し,長軸操作における故障回復評価のための摂動注入プロトコルとしてLIBERO-Recoveryをリリースする。
関連論文リスト
- Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection [15.30405243180468]
長い水平な操作タスクには、永続的なメモリ、適応的なタスクの分解、実行障害からの明示的な回復が必要である。
本フレームワークは,低レベルモータ実行から高レベルセマンティック推論を明示的に分離する。
VLMベースのエージェントモジュールとして実装された高レベルプランナは、構造化されたタスクメモリを維持している。
低レベルエグゼキュータは、VLAベースのビジュモータコントローラとしてインスタンス化され、各サブタスクを実行する。
論文 参考訳(メタデータ) (2026-04-15T14:53:09Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Recursive Belief Vision Language Action Models [0.0]
ロングホライゾン操作には永続的でアクション条件のある状態表現が必要である。
現在の視覚言語モデルは時間的および物理的推論に制限がある。
本稿では,自己教師型世界モデルで学習した信念中心アーキテクチャであるRB-VLAを紹介する。
論文 参考訳(メタデータ) (2026-02-24T08:02:16Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - Leave No Observation Behind: Real-time Correction for VLA Action Chunks [36.13271200613596]
非同期アクションチャンク補正(A2C2)は、制御ステップ毎に実行される軽量なリアルタイムチャンク補正ヘッドである。
A2C2は,高容量チャンキングポリシーをリアルタイム制御に展開するための効果的なプラグイン機構であることを示す。
論文 参考訳(メタデータ) (2025-09-27T10:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。