論文の概要: AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention
- arxiv url: http://arxiv.org/abs/2511.18960v2
- Date: Tue, 02 Dec 2025 11:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.035789
- Title: AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention
- Title(参考訳): AVA-VLA:アクティブ・ビジュアル・アテンションによるビジョン・ランゲージ・アクションモデルの改善
- Authors: Lei Xiao, Jifeng Li, Juntao Gao, Feiyang Ye, Yan Jin, Jingjing Qian, Jing Zhang, Yong Wu, Xiaoyuan Yu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、AIタスクを具現化する際、顕著な能力を示した。
現行のVLAモデルは、通常、各時間ステップごとに独立して濃密な視覚入力を処理する。
このアプローチは、タスクをマルコフ決定プロセス(MDP)として暗黙的にモデル化する。
本稿では,部分観測可能なマルコフ決定プロセス(POMDP)の観点から問題を再構成し,AVA-VLAという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.446865513189433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in embodied AI tasks. However, existing VLA models, often built upon Vision-Language Models (VLMs), typically process dense visual inputs independently at each timestep. This approach implicitly models the task as a Markov Decision Process (MDP). However, this history-agnostic design is suboptimal for effective visual token processing in dynamic sequential decision-making, as it fails to leverage the context of history. To address this limitation, we reformulate the problem from a Partially Observable Markov Decision Process (POMDP) perspective and propose a novel framework named AVA-VLA. Inspired by the POMDP that the action generation should be conditioned on the belief state. AVA-VLA introduces Active Visual Attention (AVA) to dynamically modulate visual processing. It achieves this by leveraging the recurrent state, which is a neural approximation of the agent's belief state derived from the previous decision step. Specifically, the AVA module uses the recurrent state to compute the soft weights to actively process task-relevant visual tokens based on its historical context. Comprehensive evaluations demonstrate that AVA-VLA achieves state-of-the-art performance across popular robotic benchmarks, including LIBERO and CALVIN. Furthermore, real-world deployments on a dual-arm robot platform validate the framework's practical applicability and robust sim-to-real transferability.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、AIタスクを具現化する際、顕著な能力を示した。
しかしながら、既存のVLAモデルはビジョン・ランゲージ・モデル(VLM)上に構築され、通常、各時間ステップごとに独立して密な視覚入力を処理する。
このアプローチは、タスクをマルコフ決定プロセス(MDP)として暗黙的にモデル化する。
しかし、この履歴に依存しない設計は、歴史の文脈をうまく活用できないため、動的シーケンシャルな意思決定において効果的な視覚トークン処理に最適である。
この制限に対処するため、部分観測可能なマルコフ決定プロセス(POMDP)の観点から問題を再構成し、AVA-VLAという新しいフレームワークを提案する。
POMDPにインスパイアされたアクション生成は、信念状態に基づいて条件付けされるべきである。
AVA-VLAは、視覚処理を動的に変調するActive Visual Attention (AVA)を導入している。
これは、前回の決定ステップから派生したエージェントの信念状態の神経近似である反復状態を活用することで実現される。
具体的には、AVAモジュールはリカレントステートを使用してソフトウェイトを計算し、その履歴状況に基づいてタスク関連視覚トークンを積極的に処理する。
総合的な評価は、AVA-VLAがLIBEROやCALVINを含む一般的なロボットベンチマークで最先端のパフォーマンスを達成することを示している。
さらに、デュアルアームロボットプラットフォーム上の実世界のデプロイは、フレームワークの実用性と堅牢なsim-to-realトランスファービリティを検証する。
関連論文リスト
- MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation [22.063033063941788]
MAP-VLA(Memory-Augmented Prompting for Vision-Language-Action Model)は、実証型メモリプロンプトによって訓練済みのVLAモデルを強化し、長距離ロボット操作タスクのためのアクション生成を可能にする新しいフレームワークである。
その結果、MAP-VLAは、シミュレーションベンチマークで7.0%の絶対的なパフォーマンス向上を達成でき、また、現在の最先端手法を超越した、長距離タスクにおける実際のロボット評価の25.0%を達成できることがわかった。
論文 参考訳(メタデータ) (2025-11-12T17:56:13Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。
動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。
マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文 参考訳(メタデータ) (2025-10-05T15:29:57Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。