論文の概要: QuoVLA: Quotient Space for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.24890v1
- Date: Sun, 24 May 2026 06:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.494153
- Title: QuoVLA: Quotient Space for Vision-Language-Action Models
- Title(参考訳): QuoVLA:ビジョン・ランゲージ・アクション・モデルのためのクオリティ・スペース
- Authors: Xuan Wang, Yinan Wu, Haoran Duan, Jungong Han,
- Abstract要約: VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
- 参考スコア(独自算出の注目度): 51.02329790939691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models commonly adapt pretrained Vision-Language Models (VLMs) to robot control by mapping visual observations and language instructions to continuous actions. Existing approaches typically take an action-insufficiency view, assuming that pretrained VLM latents either lack directly usable action information or should be shielded from action-learning signals. Against this view, our \textit{Quotient Theory for VLA} shows that pretrained VLM latents are not action-insufficient but action-sufficient: they already contain the information needed for control, yet remain overcomplete by distinguishing prompt-level variations that induce the same optimal action behavior. To operationalize this theory, we propose QuoVLA, a quotient-space framework for VLA that compresses pretrained VLM latents into action-sufficient representations. Specifically, QuoVLA instantiates this principle with a quantization module and a dual-branch design with relative temporal-complexity regularization, preserving action-relevant information while removing prompt-level redundancy. Extensive experiments across multiple benchmarks demonstrate that QuoVLA achieves strong performance, with particularly notable improvements in generalization under visual, linguistic, and environmental distribution shifts. Our code will be made publicly available.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、ロボット制御にトレーニング済みのVLM(Vision-Language Models)を適応させることが一般的である。
既存のアプローチは、訓練済みのVLM潜伏者に直接使用可能な行動情報がないか、アクション学習信号から守るべきであると仮定して、アクション不足の見方を取るのが一般的である。
この見解に対して、VLA の『textit{Quotient Theory for VLA} 』は、事前訓練された VLM 潜伏剤は、作用に十分ではなく、作用に十分であることを示している。
提案するQuoVLAは,事前学習したVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
具体的には、QuoVLAはこの原理を量子化モジュールと、相対時間的複雑度正規化を伴うデュアルブランチ設計でインスタンス化し、プロンプトレベルの冗長性を取り除き、アクション関連情報を保存している。
複数のベンチマークにわたる大規模な実験により、QuoVLAは特に視覚的、言語的、環境的な分布シフトの下での一般化が顕著に向上した。
私たちのコードは公開されます。
関連論文リスト
- UAM: A Dual-Stream Perspective on Forgetting in VLA Training [20.50709311546184]
視覚-言語-アクションモデル(VLAモデル、Vision- Language-action Model)は、通常、予め訓練された視覚-言語モデル(VLM)をアクションデータに微調整することによって構築される。
本稿では,この標準レシピがVLMのマルチモーダル能力を体系的に損なうことを示す。
生物学的ビジョンの2ストリームの組織にインスパイアされたこの劣化は、構造的ボトルネックまで遡る。
論文 参考訳(メタデータ) (2026-05-15T08:45:37Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision [79.06371915084833]
本稿では,VLUAS(Vision-Language Unified Autoregressive Supervision)パラダイムを活用するフレームワークであるYoutu-VLを紹介する。
Youtu-VLは視覚的詳細と言語的内容の両方に統一的な自己回帰的監督を適用している。
我々は、このパラダイムを視覚中心のタスクに拡張し、標準のVLMがタスク固有の追加なしで視覚中心のタスクを実行できるようにした。
論文 参考訳(メタデータ) (2026-01-27T17:01:16Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization [42.41263928527529]
VLA(Vision-Language-Action)モデルは、伝達可能な世界知識と視覚言語基盤を持つエージェントを支援できる。
しかし、これらのVLMがアクションモダリティに適合している場合、元の視覚的表現や知識がどの程度保存されているかははっきりしない。
本稿では,VLA微調整中の表現保持の系統的研究を行い,行動微調整が視覚的表現の劣化につながることを示す。
論文 参考訳(メタデータ) (2025-10-29T15:20:10Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。