論文の概要: Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization
- arxiv url: http://arxiv.org/abs/2510.25616v1
- Date: Wed, 29 Oct 2025 15:20:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.787369
- Title: Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization
- Title(参考訳): VLAをブラインドするな - OODの一般化のための視覚表現の調整
- Authors: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: VLA(Vision-Language-Action)モデルは、伝達可能な世界知識と視覚言語基盤を持つエージェントを支援できる。
しかし、これらのVLMがアクションモダリティに適合している場合、元の視覚的表現や知識がどの程度保存されているかははっきりしない。
本稿では,VLA微調整中の表現保持の系統的研究を行い,行動微調整が視覚的表現の劣化につながることを示す。
- 参考スコア(独自算出の注目度): 42.41263928527529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io
- Abstract(参考訳): VLA(Vision-Language-Action)モデルの成功は、事前訓練されたVision-Language Models(VLM)が、伝達可能な世界知識と視覚言語(VL)基盤を持つエージェントを授け、より広範な一般化を伴うアクションモデルの基礎を築いたことに由来する。
しかし、これらの VLM が作用モダリティに適合する場合、元の VL 表現と知識がどの程度保存されているかははっきりしない。
本研究では,VLAファインチューニングにおける表現保持の系統的研究を行い,視覚的表現の低下につながる素質的な動作の微調整を示す。
これらの効果を特徴付け,評価するために,VLAの隠れ表現を探索し,注意マップを解析し,さらに,VLAモデルとVLMを対比する一連のタスクや手法を設計し,アクション微調整によって誘発されるVL能力の変化を分離する。
さらに、視覚的表現の整合を図り、分解を軽減し、アウト・オブ・ディストリビューション(OOD)シナリオへの一般化を向上する、シンプルで効果的な方法を提案する。
本稿では, 動作微調整とVL表現の劣化のトレードオフを明らかにし, 継承されたVL能力を回復するための実践的アプローチを強調した。
コードは https://blind-vla-paper.github.io で公開されている。
関連論文リスト
- Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models [8.452688845632995]
我々は,視覚・言語・アクション(VLA)モデルのためのオブジェクト・エージェント中心のトークン化であるOat-VLAを提案する。
Oat-VLAは、パフォーマンスを犠牲にすることなく、視覚トークンの数をわずかに減らすことができる。
我々は,Oat-VLA が LIBERO スイート上で OpenVLA の少なくとも2倍の速度で収束していることを明らかにする。
論文 参考訳(メタデータ) (2025-09-28T05:42:53Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent [14.089700378708756]
textbfUP-VLA, textbfUnified VLA model training with multi-modal textbfUnderstanding and future textbfPrediction objectives。
UP-VLAはCalvin ABC-Dベンチマークの33%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-31T03:20:09Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。