論文の概要: PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2511.01571v1
- Date: Mon, 03 Nov 2025 13:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.276047
- Title: PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model
- Title(参考訳): PixelVLA:ビジョンランゲージ・アクションモデルにおける画素レベルの理解の促進
- Authors: Wenqi Liang, Gan Sun, Yao He, Jiahua Dong, Suyan Dai, Ivan Laptev, Salman Khan, Yang Cong,
- Abstract要約: VLA(Vision-Language-Action Model)は、一般化可能なビジュモータ制御ポリシーを学習するための強力なツールとして登場している。
我々は、ピクセルレベルの推論とテキストと視覚入力によるマルチモーダルプロンプトの両方をサポートするように設計された最初のVLAモデルであるPixelVLAを紹介する。
提案手法は,マルチスケールの画素認識エンコーダと視覚的プロンプトエンコーダを統合した,新しいビジュモータ・インストラクション・チューニング・フレームワークに基づいている。
- 参考スコア(独自算出の注目度): 59.32370587806426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLAs) are emerging as powerful tools for learning generalizable visuomotor control policies. However, current VLAs are mostly trained on large-scale image-text-action data and remain limited in two key ways: (i) they struggle with pixel-level scene understanding, and (ii) they rely heavily on textual prompts, which reduces their flexibility in real-world settings. To address these challenges, we introduce PixelVLA, the first VLA model designed to support both pixel-level reasoning and multimodal prompting with text and visual inputs. Our approach is built on a new visuomotor instruction tuning framework that integrates a multiscale pixel-aware encoder with a visual prompting encoder. To train PixelVLA effectively, we further propose a two-stage automated annotation pipeline that generates Pixel-160K, a large-scale dataset with pixel-level annotations derived from existing robot data. Experiments on three standard VLA benchmarks and two VLA model variants show that PixelVLA improves manipulation success rates by 10.1%-17.8% over OpenVLA, while requiring only 1.5% of its pretraining cost. These results demonstrate that PixelVLA can be integrated into existing VLAs to enable more accurate, efficient, and versatile robot control in complex environments. The dataset and code will be released as open source.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、一般化可能なビジュモータ制御ポリシーを学習するための強力なツールとして登場している。
しかしながら、現在のVLAは、主に大規模な画像-テキスト-アクションデータに基づいて訓練されており、以下の2つの主要な方法で制限されている。
一 ピクセルレベルの情景理解に苦しむこと、
(II)テキストのプロンプトに大きく依存しているため、現実の環境での柔軟性が低下する。
これらの課題に対処するために、ピクセルレベルの推論とテキストと視覚入力によるマルチモーダルプロンプトの両方をサポートするように設計された最初のVLAモデルであるPixelVLAを紹介する。
提案手法は,マルチスケールの画素認識エンコーダと視覚的プロンプトエンコーダを統合した,新しいビジュモータ・インストラクション・チューニング・フレームワークに基づいている。
さらに,PixelVLAを効果的に訓練するために,既存のロボットデータから抽出した画素レベルのアノテーションを持つ大規模データセットであるPixel-160Kを生成する2段階の自動アノテーションパイプラインを提案する。
3つの標準VLAベンチマークと2つのVLAモデルでの実験では、PixelVLAはOpenVLAよりも10.1%-17.8%改善し、事前トレーニングコストの1.5%しか必要としていない。
これらの結果は、PixelVLAを既存のVLAに統合することで、複雑な環境でより正確で効率的で汎用的なロボット制御を可能にすることを実証している。
データセットとコードはオープンソースとしてリリースされる。
関連論文リスト
- X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
最小限のパラメータを付加したソフトプロンプト手法を提案する。
0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T16:20:17Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。