論文の概要: VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling
- arxiv url: http://arxiv.org/abs/2512.02902v1
- Date: Tue, 02 Dec 2025 16:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.960062
- Title: VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling
- Title(参考訳): VLAモデルは想像以上に一般化可能:物理と空間のモデリングを再考
- Authors: Weiqi Li, Quande Zhang, Ruifeng Zhai, Liang Lin, Guangrun Wang,
- Abstract要約: 本稿では,新しいカメラ視点と視覚摂動の下で,視覚言語行動モデルが急激に劣化することを示す。
本稿では,軽量で学習可能な更新によって視覚表現を再分類するワンショット適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.341503853471494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models achieve strong in-distribution performance but degrade sharply under novel camera viewpoints and visual perturbations. We show that this brittleness primarily arises from misalignment in Spatial Modeling, rather than Physical Modeling. To address this, we propose a one-shot adaptation framework that recalibrates visual representations through lightweight, learnable updates. Our first method, Feature Token Modulation (FTM), applies a global affine transformation to visual tokens and improves Libero viewpoint accuracy from 48.5% to 87.1% with only 4K parameters. Building on this, Feature Linear Adaptation (FLA) introduces low-rank updates to the ViT encoder, achieving 90.8% success with 4.7M parameters -- matching LoRA-scale finetuning at far lower cost. Together, these results reveal substantial untapped robustness in pretrained VLA models and demonstrate that targeted, minimal visual adaptation is sufficient to restore viewpoint generalization.
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルは、分配性能は高いが、新しいカメラ視点と視覚摂動下では著しく低下する。
この脆さは, 物理的モデリングではなく, 空間的モデリングのミスアライメントに起因していることを示す。
そこで本稿では,軽量で学習可能な更新によって視覚表現を再構成するワンショット適応フレームワークを提案する。
最初の手法であるFeature Token Modulation (FTM)は、視覚トークンにグローバルアフィン変換を適用し、48.5%から87.1%のリベロ視点精度を4Kパラメータのみで改善する。
これに基づいて、FLA(Feature Linear Adaptation)はViTエンコーダの低ランクアップデートを導入し、4.7Mパラメータで90.8%の成功を収めた。
これらの結果は、事前訓練されたVLAモデルにおいて、かなりの未発達のロバスト性を示し、目的の最小限の視覚適応が視点一般化を復元するのに十分であることを示す。
関連論文リスト
- Zero-Reference Joint Low-Light Enhancement and Deblurring via Visual Autoregressive Modeling with VLM-Derived Modulation [18.67176370944511]
現実の暗黒画像は、視界とコントラストの低いだけでなく、複雑なノイズやぼやけも示しており、重要な修復上の課題を呈している。
視覚言語モデル(VLM)を用いた視覚自己回帰モデル(VAR)に基づく生成フレームワークを提案する。
我々のフレームワークは完全に教師なしであり、ベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-23T19:08:45Z) - VESSA: Video-based objEct-centric Self-Supervised Adaptation for Visual Foundation Models [0.18665975431697424]
ファンデーションモデルは、大規模な事前訓練と教師付き微調整によって、多様なタスクにわたる強力なパフォーマンスを実現することにより、高度なコンピュータビジョンを持つ。
本稿では,視覚基盤モデルに対して,アノテーションを必要とせずに新たなドメインにモデルを適応させる,自己教師型微調整の新たな定式化を提案する。
VESSA(VojEct-centric Self-Supervised Adaptation for visual foundation model)と呼ぶ。
論文 参考訳(メタデータ) (2025-10-23T20:44:28Z) - Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - Vision-Language Model Fine-Tuning via Simple Parameter-Efficient Modification [46.25272949924458]
VLMのパラメータの微調整は、CLIPモデルの微調整が性能を低下させるため、事前訓練された知識を損なうと考えられている。
ClipFitはCLIPを微調整する手法で、余分なパラメータのオーバーヘッドを発生させることなく提案する。
ClipFitが0ショットCLIPの性能を平均調和平均精度7.27%向上できることを実証した。
論文 参考訳(メタデータ) (2024-09-25T08:07:18Z) - RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [88.82621231987815]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。
RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。
RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers [72.83770102062141]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。
既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。
従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。
学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。