論文の概要: ProgVLA: Progress-Aware Robot Manipulation Skill Learning
- arxiv url: http://arxiv.org/abs/2605.28231v1
- Date: Wed, 27 May 2026 09:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.94693
- Title: ProgVLA: Progress-Aware Robot Manipulation Skill Learning
- Title(参考訳): ProgVLA:プログレッシブ対応ロボットマニピュレーションスキル学習
- Authors: Seungsu Kim, Jinyoung Choi, Seungmin Baek, Jean-Michel Renders,
- Abstract要約: 本稿では,厳密な計算およびメモリ予算下でのロボット操作のための,コンパクトな視覚言語アクション(VLA)モデルであるProgVLAを提案する。
2段階のPerceiver再サンプリングスキームを持つマルチモーダルエンコーダは、可変長の視覚、言語、固有受容ストリームを、制御可能なコンテキストトークンの固定セットに圧縮する。
前進ヘッドの補助セットは、オフラインの強化学習目標を用いて訓練され、正規化された残地目標に対する批判を共同で学習する。
- 参考スコア(独自算出の注目度): 13.001629637153583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ProgVLA, a compact vision-language-action (VLA) model designed for reliable robot manipulation under tight compute and memory budgets. The model specifically focuses on efficiently processing long multi-modal sequences by maintaining an explicit representation of task progress over extended horizons. To this end, ProgVLA integrates two key components. First, a multi-modal encoder with a two-stage Perceiver resampling scheme compresses variable-length visual, language, and proprioceptive streams into a fixed set of control-ready context tokens, substantially reducing sequence length while preserving cross-modal grounding. Second, an auxiliary set of progress heads is trained with offline reinforcement learning (RL) objectives to jointly learn critics over normalized remaining-horizon targets. This provides the policy with an internal estimate of task progress and enables advantage- and success-weighted flow-matching imitation learning. On two well-established multi-task robot manipulation benchmarks, a 0.1B-parameter ProgVLA model reaches success rates that are competitive with, and on long-horizon and harder task tiers exceed, substantially larger pretrained baselines. Ablations indicate that the learned context resampler and task-adaptive visual fine-tuning are the largest single contributors, while progress-aware training provides a consistent additional gain that is concentrated on long-horizon and multi-object tasks. We further validate the approach in real-world toy-kitchen environments.
- Abstract(参考訳): 本稿では,厳密な計算およびメモリ予算下でのロボット操作のための,コンパクトな視覚言語アクション(VLA)モデルであるProgVLAを提案する。
このモデルは、拡張水平線上のタスク進捗の明示的な表現を維持することによって、長いマルチモーダルシーケンスを効率的に処理することに焦点を当てている。
この目的のために、ProgVLAは2つの重要なコンポーネントを統合する。
まず,2段階のPerceiver再サンプリング方式を用いたマルチモーダルエンコーダを用いて,可変長の視覚,言語,固有受容ストリームを一定セットの制御可能なコンテキストトークンに圧縮し,クロスモーダルグラウンドを保ちながらシーケンス長を大幅に削減する。
第二に、進行の補助的セットをオフライン強化学習(RL)目標で訓練し、正規化された残地目標に対する批判を共同で学習する。
これは、タスクの進捗を内部で見積もってポリシーを提供し、利点と成功に富んだフローマッチングの模倣学習を可能にする。
2つの確立されたマルチタスクロボット操作ベンチマークでは、0.1BパラメータのProgVLAモデルが、競合する成功率に達し、長い水平と厳しいタスク層では、かなり大きな事前訓練されたベースラインに達する。
アブレーションは、学習したコンテキストリサンプラーとタスク適応型視覚微調整が最大のコントリビュータであることを示している。
実際の玩具キッチン環境におけるアプローチをさらに検証する。
関連論文リスト
- PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation [27.791908160098625]
PALMは、インタラクション中心のアベイランス推論とサブタスクプログレスキューに関するポリシー学習を構築する。
Palmはシミュレーションや実世界の実験において、一貫してベースラインを上回っている。
論文 参考訳(メタデータ) (2026-01-11T21:00:58Z) - Dynamic Routing Between Experts: A Data-Efficient Approach to Continual Learning in Vision-Language Models [10.431923437214719]
VLM(Vision-Language Models)は、新しいタスクを逐次微調整する場合、破滅的な忘れ込みに悩まされる。
本稿では,事前学習時に得られる基礎知識を維持しつつ,新たなタスクの統合を可能にするルーティングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-03T18:39:32Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。