論文の概要: VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2601.03309v1
- Date: Tue, 06 Jan 2026 09:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.044605
- Title: VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
- Title(参考訳): VLM4VLA:視覚言語行動モデルにおける視覚言語モデルの再検討
- Authors: Jianke Zhang, Xiaoyu Chen, Qiuyue Wang, Mingsheng Li, Yanjiang Guo, Yucheng Hu, Jiajun Zhang, Shuai Bai, Junyang Lin, Jianyu Chen,
- Abstract要約: Vision-Language-Action(VLA)モデルは、事前訓練された大規模なVision-Language Models(VLM)をポリシーバックボーンに統合する。
本稿では、VLMの選択と能力が下流のVLAポリシーのパフォーマンスにどのように変換されるかという、体系的に研究されることは滅多にない。
VLM4VLAは、汎用的なVLMを、学習可能なパラメータの小さなセットのみを用いてVLAポリシーに変換する、最小限の適応パイプラインである。
- 参考スコア(独自算出の注目度): 43.09726338623949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models, which integrate pretrained large Vision-Language Models (VLM) into their policy backbone, are gaining significant attention for their promising generalization capabilities. This paper revisits a fundamental yet seldom systematically studied question: how VLM choice and competence translate to downstream VLA policies performance? We introduce VLM4VLA, a minimal adaptation pipeline that converts general-purpose VLMs into VLA policies using only a small set of new learnable parameters for fair and efficient comparison. Despite its simplicity, VLM4VLA proves surprisingly competitive with more sophisticated network designs. Through extensive empirical studies on various downstream tasks across three benchmarks, we find that while VLM initialization offers a consistent benefit over training from scratch, a VLM's general capabilities are poor predictors of its downstream task performance. This challenges common assumptions, indicating that standard VLM competence is necessary but insufficient for effective embodied control. We further investigate the impact of specific embodied capabilities by fine-tuning VLMs on seven auxiliary embodied tasks (e.g., embodied QA, visual pointing, depth estimation). Contrary to intuition, improving a VLM's performance on specific embodied skills does not guarantee better downstream control performance. Finally, modality-level ablations identify the visual module in VLM, rather than the language component, as the primary performance bottleneck. We demonstrate that injecting control-relevant supervision into the vision encoder of the VLM yields consistent gains, even when the encoder remains frozen during downstream fine-tuning. This isolates a persistent domain gap between current VLM pretraining objectives and the requirements of embodied action-planning.
- Abstract(参考訳): 事前訓練された大型ビジョン・ランゲージ・モデル(VLM)をポリシーバックボーンに統合するビジョン・ランゲージ・アクション(VLA)モデルは、将来有望な一般化能力において大きな注目を集めている。
本稿では、VLMの選択と能力が下流のVLAポリシーのパフォーマンスにどのように変換されるかという、体系的に研究されることはめったにない根本的な問題を再考する。
VLM4VLAは、汎用的なVLMを、公正かつ効率的な比較のために、学習可能なパラメータの小さなセットだけを用いてVLAポリシーに変換する、最小限の適応パイプラインである。
単純さにもかかわらず、VLM4VLAはより洗練されたネットワーク設計と驚くほど競合する。
VLMの初期化は、スクラッチからのトレーニングよりも一貫した利益をもたらすが、VLMの一般的な能力は、下流タスクのパフォーマンスの予測に乏しい。
このことは、標準的なVLM能力は必要だが効果的な実施制御には不十分であることを示す、一般的な仮定に挑戦する。
さらに,VLMの微調整による具体化能力が7つの補助的具体化タスク(例えば,具体化QA,視覚的ポインティング,深度推定)に与える影響について検討した。
直感とは対照的に、特定の具体的スキルにおけるVLMの性能改善は、下流制御性能の向上を保証するものではない。
最後に、モダリティレベルのアブレーションは、言語コンポーネントではなく、VLMの視覚モジュールを主要なパフォーマンスボトルネックとして識別する。
我々は、VLMのビジョンエンコーダに制御関連監督を注入すると、下流の微調整中にエンコーダが凍結状態のままであっても、一貫した利得が得られることを示した。
これにより、現在のVLM事前学習目標と具体的アクションプランニングの要件との間の永続的なドメインギャップが分離される。
関連論文リスト
- MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization [30.871663465403625]
我々は、視覚・言語・アクション(VLA)モデルのための、最初の堅牢な微調整フレームワークであるMAPSを紹介する。
系統解析により,安定性と柔軟性のバランスをとるために近接制約を緩和する経験的順序を明らかにする。
MAPSはこの緩和を線形にスケジュールし、視覚エンコーダは事前訓練された事前に近づき、アクション指向の言語層はより自由に適応できる。
論文 参考訳(メタデータ) (2025-11-25T03:39:37Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.296395082987112]
L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文 参考訳(メタデータ) (2025-09-20T11:12:23Z) - SpotVLM: Cloud-edge Collaborative Real-time VLM based on Context Transfer [14.669949808424409]
VLM(Vision-Language Models)は、自律運転や人間とコンピュータのインタラクションといったリアルタイムアプリケーションにますます普及している。
既存のシステムでは、分割されたLVLM(Large Vision-Language Models)やタスクオフロード戦略が一般的である。
本稿では,LVLMの遅延出力を歴史的文脈として扱う,新しいクラウドエッジ協調パラダイムであるContext Transferを提案する。
論文 参考訳(メタデータ) (2025-08-18T05:51:41Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
GLOVは、大型言語モデル(LLM)が視覚言語モデル(VLM)の暗黙エンコーダとして機能することを可能にする。
GLOVは、オブジェクト認識のためのデュアルエンコーダ(CLIP)とVLデコーダ(LlaVA)モデルに対して、最大15.0%と57.5%の性能向上を示す。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。