論文の概要: How Do VLAs Effectively Inherit from VLMs?
- arxiv url: http://arxiv.org/abs/2511.06619v1
- Date: Mon, 10 Nov 2025 01:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.027328
- Title: How Do VLAs Effectively Inherit from VLMs?
- Title(参考訳): VLMからVLAを効果的に継承する方法
- Authors: Chuheng Zhang, Rushuai Yang, Xiaoyu Chen, Kaixin Wang, Li Zhao, Yi Chen, Jiang Bian,
- Abstract要約: 視覚言語アクション(VLA)モデルは、一般化可能な具体化制御を実現するという約束を持っている。
我々は、絵文字テーブルトップ操作タスクであるGrinningFaceという診断ベンチマークを導入する。
本稿では,パラメータ効率のよい微調整,VLM凍結,協調学習,離散化動作の予測,潜伏動作の予測の効果について検討する。
- 参考スコア(独自算出の注目度): 28.72002932514493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models hold the promise to attain generalizable embodied control. To achieve this, a pervasive paradigm is to leverage the rich vision-semantic priors of large vision-language models (VLMs). However, the fundamental question persists: How do VLAs effectively inherit the prior knowledge from VLMs? To address this critical question, we introduce a diagnostic benchmark, GrinningFace, an emoji tabletop manipulation task where the robot arm is asked to place objects onto printed emojis corresponding to language instructions. This task design is particularly revealing -- knowledge associated with emojis is ubiquitous in Internet-scale datasets used for VLM pre-training, yet emojis themselves are largely absent from standard robotics datasets. Consequently, they provide a clean proxy: successful task completion indicates effective transfer of VLM priors to embodied control. We implement this diagnostic task in both simulated environment and a real robot, and compare various promising techniques for knowledge transfer. Specifically, we investigate the effects of parameter-efficient fine-tuning, VLM freezing, co-training, predicting discretized actions, and predicting latent actions. Through systematic evaluation, our work not only demonstrates the critical importance of preserving VLM priors for the generalization of VLA but also establishes guidelines for future research in developing truly generalizable embodied AI systems.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、一般化可能な具体化制御を実現するという約束を持っている。
これを実現するために、広範にわたるパラダイムは、大きな視覚言語モデル (VLM) のリッチなビジョン・セマンティックな先行性を活用することである。
VLAはどのようにしてVLMから以前の知識を継承するのか?
この重要な問題に対処するために、ロボットアームが言語命令に対応する印刷絵文字にオブジェクトを配置するよう求める絵文字テーブルトップ操作タスクであるGrinningFaceという診断ベンチマークを導入する。
絵文字に関連する知識は、VLM事前トレーニングに使用されるインターネットスケールのデータセットで広く使われているが、絵文字自体が標準のロボティクスデータセットにはほとんど欠落している。
その結果、彼らはクリーンなプロキシを提供する: 正常なタスク完了は、具体化された制御に先立ってVLMを効果的に転送することを示している。
シミュレーション環境と実ロボットの両方において,この診断タスクを実装し,知識伝達のための様々な有望な手法を比較した。
具体的には,パラメータ効率のよい微調整,VLM凍結,協調学習,離散化動作の予測,潜時動作の予測の効果について検討する。
体系的な評価を通じて,本研究は,VLAの一般化のためのVLM事前保存の重要性だけでなく,真に一般化可能なAIシステムの開発における今後の研究ガイドラインの確立にも寄与する。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge [14.143521529613533]
視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失うことが多い。
一般化可能なVLAモデルは、VLMのコア能力を維持し拡張するべきである。
論文 参考訳(メタデータ) (2025-05-28T02:48:42Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。