Fugu-MT 論文翻訳(概要): ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation

論文の概要: ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation

arxiv url: http://arxiv.org/abs/2603.27670v1
Date: Sun, 29 Mar 2026 12:38:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.065236
Title: ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation
Title（参考訳）: ProgressVLA:視覚言語ロボットマニピュレーションのためのプログレッシブガイド付き拡散政策
Authors: Hongyu Yan, Qiwei Li, Jiaolong Yang, Yadong Mu,
Abstract要約: ロボット操作のための既存の視覚言語アクション(VLA)モデルは、進歩意識を欠いている。本研究では,textbf vla という新しいモデルを提案し,タスク進捗の推定と統合について検討する。 CALVINとLIBEROベンチマークの実験は、実世界のロボットの展開とともに、成功率の大幅な改善を一貫して示している。
参考スコア（独自算出の注目度）: 57.07494675832939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most existing vision-language-action (VLA) models for robotic manipulation lack progress awareness, typically relying on hand-crafted heuristics for task termination. This limitation is particularly severe in long-horizon tasks involving cascaded sub-goals. In this work, we investigate the estimation and integration of task progress, proposing a novel model named {\textbf \vla}. Our technical contributions are twofold: (1) \emph{robust progress estimation}: We pre-train a progress estimator on large-scale, unsupervised video-text robotic datasets. This estimator achieves a low prediction residual (0.07 on a scale of $[0, 1]$) in simulation and demonstrates zero-shot generalization to unseen real-world samples, and (2) \emph{differentiable progress guidance}: We introduce an inverse dynamics world model that maps predicted action tokens into future latent visual states. These latents are then processed by the progress estimator; by applying a maximal progress regularization, we establish a differentiable pipeline that provides progress-piloted guidance to refine action tokens. Extensive experiments on the CALVIN and LIBERO benchmarks, alongside real-world robot deployment, consistently demonstrate substantial improvements in success rates and generalization over strong baselines.
Abstract（参考訳）: ロボット操作のための既存の視覚言語アクション(VLA)モデルは、通常、タスク終了のために手作りのヒューリスティックに依存する進歩意識を欠いている。この制限は、カスケードされたサブゴールを含む長い水平タスクにおいて特に深刻である。本研究では,タスク進捗の予測と統合について検討し,新しいモデルである「textbf \vla}」を提案する。 1) \emph{robust progress estimation}: 大規模で教師なしのビデオテキストロボットデータセット上で進捗推定器を事前訓練する。この推定器は、シミュレーションにおいて、[0, 1]$のスケールで0.07の低い予測残差を達成し、実世界の未知のサンプルに対してゼロショットの一般化を実証し、(2) \emph{differentiable progress guidance}: 予測されたアクショントークンを将来の潜在視覚状態にマッピングする逆動的世界モデルを導入する。最大進行正則化を適用することにより、動作トークンを洗練するための進行パイロット付きガイダンスを提供する、微分可能なパイプラインを確立する。 CALVINとLIBEROのベンチマークに関する大規模な実験は、実世界のロボットの展開とともに、強いベースラインに対する成功率と一般化の大幅な改善を一貫して示している。

関連論文リスト

Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress [32.47071055191472]
Recurrent Reasoning Vision-Language Model(textR2$VLM)を提案する。本モデルでは,局所的なビデオスニペットを反復的に処理し,グローバルなコンテキストを維持するリカレント推論フレームワークを特徴とする。 ALFREDとEgo4Dから生成された大規模で自動生成されたデータセットに対して、textR2$VLMをトレーニングします。
論文参考訳（メタデータ） (2026-03-18T03:13:29Z)
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文参考訳（メタデータ） (2026-03-10T07:22:51Z)
Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons [69.87766750714945]
汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
論文参考訳（メタデータ） (2026-03-02T17:38:58Z)
Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics [46.912038830356714]
本稿では,ロボット作業の進捗を推定する時間的価値関数TOPRewardを紹介する。 130以上の異なる実世界のタスクに対するゼロショット評価では、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。我々は,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
論文参考訳（メタデータ） (2026-02-22T19:25:48Z)
PROGRESSLM: Towards Progress Reasoning in Vision-Language Models [10.481670664271073]
タスクの進捗を見積もるには、静的な視覚的内容を認識するのではなく、長い水平運動を推理する必要がある。本稿では,視覚言語モデルにおける進捗推論を体系的に評価するベンチマークであるProgress-Benchを紹介する。さらに、トレーニングフリープロンプトとトレーニングベースアプローチの両方を通じて、人間にインスパイアされた2段階進行推論パラダイムについて検討する。
論文参考訳（メタデータ） (2026-01-21T17:56:59Z)
EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。 Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。 EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文参考訳（メタデータ） (2025-12-16T18:26:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。