論文の概要: MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization
- arxiv url: http://arxiv.org/abs/2511.19878v1
- Date: Tue, 25 Nov 2025 03:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.256401
- Title: MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization
- Title(参考訳): MAPS:Module-Wise Proximity Schedulingによるビジョン・ランゲージ・アクションの一般化のためのビジョン・ランゲージ表現の保存
- Authors: Chengyue Huang, Mellon M. Zhang, Robert Azarcon, Glen Chou, Zsolt Kira,
- Abstract要約: 我々は、視覚・言語・アクション(VLA)モデルのための、最初の堅牢な微調整フレームワークであるMAPSを紹介する。
系統解析により,安定性と柔軟性のバランスをとるために近接制約を緩和する経験的順序を明らかにする。
MAPSはこの緩和を線形にスケジュールし、視覚エンコーダは事前訓練された事前に近づき、アクション指向の言語層はより自由に適応できる。
- 参考スコア(独自算出の注目度): 30.871663465403625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models inherit strong priors from pretrained Vision-Language Models (VLMs), but naive fine-tuning often disrupts these representations and harms generalization. Existing fixes -- freezing modules or applying uniform regularization -- either overconstrain adaptation or ignore the differing roles of VLA components. We present MAPS (Module-Wise Proximity Scheduling), the first robust fine-tuning framework for VLAs. Through systematic analysis, we uncover an empirical order in which proximity constraints should be relaxed to balance stability and flexibility. MAPS linearly schedules this relaxation, enabling visual encoders to stay close to their pretrained priors while action-oriented language layers adapt more freely. MAPS introduces no additional parameters or data, and can be seamlessly integrated into existing VLAs. Across MiniVLA-VQ, MiniVLA-OFT, OpenVLA-OFT, and challenging benchmarks such as SimplerEnv, CALVIN, LIBERO, as well as real-world evaluations on the Franka Emika Panda platform, MAPS consistently boosts both in-distribution and out-of-distribution performance (up to +30%). Our findings highlight empirically guided proximity to pretrained VLMs as a simple yet powerful principle for preserving broad generalization in VLM-to-VLA transfer.
- Abstract(参考訳): Vision-Language-Action (VLA)モデルは、事前訓練されたVision-Language Models (VLM) から強い先行を継承するが、素早い微調整はこれらの表現を混乱させ、一般化を損なう。
既存の修正 -- 凍結モジュールや統一正規化の適用 -- は、過剰に制約されるか、VLAコンポーネントの異なる役割を無視する。
VLAの最初の堅牢な微調整フレームワークであるMAPS(Module-Wise Proximity Scheduling)を提案する。
系統解析により,安定性と柔軟性のバランスをとるために近接制約を緩和する経験的順序を明らかにする。
MAPSはこの緩和を線形にスケジュールし、視覚エンコーダは事前訓練された事前に近づき、アクション指向の言語層はより自由に適応できる。
MAPSは追加のパラメータやデータを導入せず、既存のVLAにシームレスに統合できる。
MiniVLA-VQ、MiniVLA-OFT、OpenVLA-OFT、およびSimplerEnv、CALVIN、LIBEROなどの挑戦的なベンチマーク、およびFranka Emika Pandaプラットフォームにおける実世界評価の他、MAPSは、配信内と配布外の両方のパフォーマンス(+30%まで)を継続的に向上している。
本研究は,VLM-to-VLA転送における広汎化保存の原則として,予め訓練したVLMに近づいた経験的指針を示すものである。
関連論文リスト
- Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization [42.41263928527529]
VLA(Vision-Language-Action)モデルは、伝達可能な世界知識と視覚言語基盤を持つエージェントを支援できる。
しかし、これらのVLMがアクションモダリティに適合している場合、元の視覚的表現や知識がどの程度保存されているかははっきりしない。
本稿では,VLA微調整中の表現保持の系統的研究を行い,行動微調整が視覚的表現の劣化につながることを示す。
論文 参考訳(メタデータ) (2025-10-29T15:20:10Z) - Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success [5.617637951327993]
本稿では,軽量強化学習アルゴリズムであるVision-Language Decoupled Actor-Critic (VLDAC)を紹介する。
VLDACは環境レベルのみに価値を学習しながら、PPO更新を動作に適用する。
一度に1つの安価なシミュレータで1つのVLMをVLDACでトレーニングすると、広く一般化するポリシーが生成される。
論文 参考訳(メタデータ) (2025-08-06T10:08:48Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - CF-VLM:CounterFactual Vision-Language Fine-tuning [10.299136720220416]
CounterFactual Vision-Language Fine-tuning (CF-VLM)は、視覚言語モデルの因果推論能力を高める新しいフレームワークである。
CF-VLMは3つの補完的なトレーニング目標を導入している: 基本的なクロスモーダルアライメントの維持、実写シーン表現のユニークさと安定性の強化、最小限ながら重要な因果編集に対するモデルの感度の強化。
論文 参考訳(メタデータ) (2025-06-10T20:20:05Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [31.88022265176855]
Supervised Embedding Alignment (SEA) は、事前トレーニング中により正確な視覚的テキストアライメントを可能にするトークンレベルのアライメント手法である。
包括的分析により,マルチモーダル統合におけるアダプタの役割について重要な知見が得られた。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。