論文の概要: VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.05049v1
- Date: Wed, 04 Feb 2026 20:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.617043
- Title: VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models
- Title(参考訳): VISTA:ビジョン・ランゲージ・アクションモデルにおけるトラック追従優先最適化によるビジュアルコンディショニングの強化
- Authors: Yiye Chen, Yanan Jian, Xiaoyi Dong, Shuxin Cao, Jing Wu, Patricio Vela, Benjamin E. Lundell, Dongdong Chen,
- Abstract要約: VLA(Vision-Language-Action)モデルは、幅広いロボット操作タスクにおいて強力なパフォーマンスを示している。
成功にもかかわらず、大きな事前訓練されたVLAモデルをアクション空間に拡張することで、視覚-アクションのミスアライメントを誘発することができる。
VLAモデルにおける視覚的条件付けを明確に強化するトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.542479606920423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated strong performance across a wide range of robotic manipulation tasks. Despite the success, extending large pretrained Vision-Language Models (VLMs) to the action space can induce vision-action misalignment, where action predictions exhibit weak dependence on the current visual state, leading to unreliable action outputs. In this work, we study VLA models through the lens of visual conditioning and empirically show that successful rollouts consistently exhibit stronger visual dependence than failed ones. Motivated by this observation, we propose a training framework that explicitly strengthens visual conditioning in VLA models. Our approach first aligns action prediction with visual input via preference optimization on a track-following surrogate task, and then transfers the enhanced alignment to instruction-following task through latent-space distillation during supervised finetuning. Without introducing architectural modifications or additional data collection, our method improves both visual conditioning and task performance for discrete OpenVLA, and further yields consistent gains when extended to the continuous OpenVLA-OFT setting. Project website: https://vista-vla.github.io/ .
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、幅広いロボット操作タスクにおいて強力なパフォーマンスを示している。
成功にもかかわらず、大きな事前訓練されたビジョンランゲージモデル(VLM)をアクション空間に拡張することで、アクション予測が現在の視覚状態に弱い依存を示し、信頼性の低いアクション出力をもたらすような視覚アクションの不適応を誘発することができる。
本研究では,視覚条件のレンズによるVLAモデルについて検討し,成功したロールアウトが失敗したモデルよりも強い視覚依存を示すことを示す。
本研究の目的は,VLAモデルにおける視覚的条件付けを明示的に強化するトレーニングフレームワークを提案することである。
提案手法は、まず、トラック追従サロゲートタスクの優先最適化による視覚的入力と行動予測を一致させ、次に教師付き微調整中の潜在空間蒸留による命令追従タスクにアライメントを移す。
アーキテクチャの変更や追加データ収集を導入することなく、離散OpenVLAの視覚条件とタスク性能を改善し、連続OpenVLA-OFT設定に拡張した場合に一貫した利得を得る。
プロジェクトウェブサイト: https://vista-vla.github.io/
関連論文リスト
- Youtu-VL: Unleashing Visual Potential via Unified Vision-Language Supervision [79.06371915084833]
本稿では,VLUAS(Vision-Language Unified Autoregressive Supervision)パラダイムを活用するフレームワークであるYoutu-VLを紹介する。
Youtu-VLは視覚的詳細と言語的内容の両方に統一的な自己回帰的監督を適用している。
我々は、このパラダイムを視覚中心のタスクに拡張し、標準のVLMがタスク固有の追加なしで視覚中心のタスクを実行できるようにした。
論文 参考訳(メタデータ) (2026-01-27T17:01:16Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization [42.41263928527529]
VLA(Vision-Language-Action)モデルは、伝達可能な世界知識と視覚言語基盤を持つエージェントを支援できる。
しかし、これらのVLMがアクションモダリティに適合している場合、元の視覚的表現や知識がどの程度保存されているかははっきりしない。
本稿では,VLA微調整中の表現保持の系統的研究を行い,行動微調整が視覚的表現の劣化につながることを示す。
論文 参考訳(メタデータ) (2025-10-29T15:20:10Z) - ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。
動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。
マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文 参考訳(メタデータ) (2025-10-05T15:29:57Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。