Fugu-MT 論文翻訳(概要): See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

論文の概要: See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

arxiv url: http://arxiv.org/abs/2603.09292v1
Date: Tue, 10 Mar 2026 07:22:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.122836
Title: See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation
Title（参考訳）: プログレッシブ・アウェア・ビジョン・ランゲージ・アクションモデルによるロバストなロボットマニピュレーション
Authors: Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang,
Abstract要約: 本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
参考スコア（独自算出の注目度）: 59.07792608884117
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Measurement of task progress through explicit, actionable milestones is critical for robust robotic manipulation. This progress awareness enables a model to ground its current task status, anticipate verifiable intermediate states, and detect and recover from failures when progress stalls. To embody this capability, we introduce See, Plan, Rewind (SPR), a progress-aware vision-language-action framework that dynamically grounds language instructions into a sequence of spatial subgoals. SPR operates through a continuous core cycle, Seeing the current state and upcoming milestone, Planning a trajectory towards the next 2D waypoint, and Rewinding to a recoverable state upon failure by monitoring progress against the expected sequence. This closed-loop approach enables robust error correction without requiring additional training data or auxiliary models. Extensive experiments demonstrate the framework's effectiveness, generalization and robustness: SPR outperforms the MolmoAct baseline by 5\% on the LIBERO benchmark. On the challenging LIBERO-Plus benchmark with unseen instructions and initial states, SPR achieves state-of-the-art robustness with the smallest performance drop, surpassing OpenVLA-OFT and UniVLA, demonstrating superior out-of-distribution robustness.
Abstract（参考訳）: 明示的で行動可能なマイルストーンを通じたタスク進捗の測定は、堅牢なロボット操作に不可欠である。この進捗認識により、モデルは現在のタスク状態を確立し、検証可能な中間状態を予測し、進捗が止まったときに障害を検出して回復することができる。この能力を具現化するために,See, Plan, Rewind (SPR)という,言語命令を動的に空間的なサブゴールの列にグルーピングするプログレッシブ・アウェア・ビジョン・ランゲージ・アクション・フレームワークを紹介した。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、期待されるシーケンスに対する進捗を監視して、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。このクローズドループアプローチは、追加のトレーニングデータや補助モデルを必要としない堅牢なエラー修正を可能にする。 SPR は LIBERO ベンチマークで MolmoAct のベースラインを 5 % 上回っている。未知の命令と初期状態を持つ挑戦的なLIBERO-Plusベンチマークでは、SPRは最小のパフォーマンス低下で最先端のロバスト性を達成し、OpenVLA-OFTとUniVLAを上回り、より優れたアウト・オブ・ディストリビュート・ロバスト性を示す。

関連論文リスト

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control [39.17038025776311]
CAREは、ロボットタスク実行のためのVLAモデルをトレーニングするために設計されたフレームワークである。 CAREはビデオテキストペアのみを活用することで、明示的なアクションラベルの必要性を排除している。結果は, ロボット制御におけるCAREのスケーラビリティ, 解釈可能性, 有効性を示す。
論文参考訳（メタデータ） (2026-01-30T02:28:32Z)
ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models [10.481670664271073]
タスクの進捗を見積もるには、静的な視覚的内容を認識するのではなく、長い水平運動を推理する必要がある。本稿では,視覚言語モデルにおける進捗推論を体系的に評価するベンチマークであるProgress-Benchを紹介する。さらに、トレーニングフリープロンプトとトレーニングベースアプローチの両方を通じて、人間にインスパイアされた2段階進行推論パラダイムについて検討する。
論文参考訳（メタデータ） (2026-01-21T17:56:59Z)
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。 Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。 EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文参考訳（メタデータ） (2025-12-16T18:26:38Z)
FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。 FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。 FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文参考訳（メタデータ） (2025-12-04T16:21:38Z)
RESample: A Robust Data Augmentation Framework via Exploratory Sampling for Robotic Manipulation [35.01431111972725]
VLA(Vision-Language-Action Model)は、模倣学習を通じて複雑なロボット操作タスクにおいて顕著な性能を示す。探索サンプリングにより,RESample という自動 OOD データ拡張フレームワークを提案する。 LIBEROベンチマークと実世界のロボット操作タスクについて広範な実験を行い、resampleがVLAモデルの安定性と一般化能力を一貫して改善することを実証した。
論文参考訳（メタデータ） (2025-10-20T15:21:12Z)
CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。 CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。