論文の概要: MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.02212v1
- Date: Mon, 02 Feb 2026 15:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.246926
- Title: MAIN-VLA: Modeling Abstraction of Intention and eNvironment for Vision-Language-Action Models
- Title(参考訳): MAIN-VLA:視覚言語行動モデルにおける意図の抽象化とeNvironmentのモデル化
- Authors: Zheyuan Zhou, Liang Du, Zixun Sun, Xiaoyu Zhou, Ruimin Ye, Qihao Chen, Yinda Chen, Lemiao Qiu,
- Abstract要約: MAIN-VLAは、意図の抽象化とeNvironmentを、深いセマンティックアライメントにおける意思決定に明示的にモデル化するフレームワークである。
我々は,MAIN-VLAがより優れた意思決定品質,より強力な一般化,最先端推論効率を実現することを示す。
- 参考スコア(独自算出の注目度): 16.638080310618502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in Visual-Language-Action (VLA), in highly complex and dynamic environments that involve real-time unpredictable interactions (such as 3D open worlds and large-scale PvP games), existing approaches remain inefficient at extracting action-critical signals from redundant sensor streams. To tackle this, we introduce MAIN-VLA, a framework that explicitly Models the Abstraction of Intention and eNvironment to ground decision-making in deep semantic alignment rather than superficial pattern matching. Specifically, our Intention Abstraction (IA) extracts verbose linguistic instructions and their associated reasoning into compact, explicit semantic primitives, while the Environment Semantics Abstraction (ESA) projects overwhelming visual streams into a structured, topological affordance representation. Furthermore, aligning these two abstract modalities induces an emergent attention-concentration effect, enabling a parameter-free token-pruning strategy that filters out perceptual redundancy without degrading performance. Extensive experiments in open-world Minecraft and large-scale PvP environments (Game for Peace and Valorant) demonstrate that MAIN-VLA sets a new state-of-the-art, which achieves superior decision quality, stronger generalization, and cutting-edge inference efficiency.
- Abstract(参考訳): VLA(Visual-Language-Action)は、リアルタイムな予測不可能な相互作用(3Dオープンワールドや大規模PvPゲームなど)を含む非常に複雑でダイナミックな環境で大幅に進歩しているが、既存のアプローチは、冗長なセンサーストリームからアクションクリティカル信号を抽出する上で、効率的ではない。
そこで我々は,表層パターンマッチングではなく,深いセマンティックアライメントにおいて,意図の抽象化とeNvironmentを明確にモデル化するフレームワークであるMAIN-VLAを紹介した。
Intention Abstraction (IA) は冗長な言語命令とそれに関連する推論をコンパクトで明示的なセマンティックプリミティブに抽出する一方、Environment Semantics Abstraction (ESA) は視覚ストリームを構造化されたトポロジカルなアベイランス表現に圧倒的に拡張する。
さらに、これら2つの抽象的モダリティを整合させることで、突発的な注意集中効果がもたらされ、性能を低下させることなく、知覚的冗長性を除去するパラメータフリーなトークンプレーニング戦略が実現される。
オープンワールドMinecraftと大規模PvP環境(Game for Peace and Valorant)における大規模な実験は、MAIN-VLAがより優れた意思決定品質、より強力な一般化、最先端推論効率を達成する新しい最先端の状態を設定していることを示している。
関連論文リスト
- FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models [20.47311573790516]
FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
論文 参考訳(メタデータ) (2026-01-29T02:36:19Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training [39.7658823121591]
ZOMGは、アノテーションや微調整を必要とせずに、動作シーケンスを意味のあるサブアクションに分割するフレームワークである。
ZOMGは(1)言語セマンティックパーティションを統合し、大きな言語モデルを利用して命令を順序付けられたサブアクション単位に分解し、(2)ソフトマスキング最適化を行う。
3つのモーション言語データセットの実験では、HumanML3Dベンチマークにおいて、先行手法を+8.7%mAPで上回る、動作グラウンド性能の最先端の有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-11-19T12:11:36Z) - Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools [41.993750134878766]
Video-STARは、オープン語彙行動認識のためのツール強化学習とコンテキストサブモーション分解を調和させるフレームワークである。
アクションをモノリシックなエンティティとして扱う従来の方法とは異なり、我々のアプローチは、アクションをきめ細かなマッチングのための差別的なサブモーションに革新的に分解する。
本手法は,テキスト中心の推論から視覚的接地推論へ伝達する,明示的な監督を伴わずに,外部ツールを自律的に活用し,サブモーションパターンの優先順位付けを行う。
論文 参考訳(メタデータ) (2025-10-09T17:20:44Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA [21.362682837521632]
Latent Action Models (LAMs) は、視覚言語制御システムにおいて、大規模な無注釈データからセマンティック・アクション・リセプションを学習することを可能にする。
Farsighted-LAMを提案する。これは幾何学的空間符号化とマルチスケール時間的モデリングを備えた潜在アクションフレームワークである。
さらに,Farsighted-LAM上に構築されたエンドツーエンドVLAフレームワークであるSSM-VLAを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:41:43Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations [4.807052027638089]
スロット内のオブジェクトのセマンティクスを学習するニューラルスロットインタプリタ(NSI)を提案する。
バイモーダルなオブジェクトプロパティとシーン検索タスクによる実験は、NSIが学習した対応の基盤的有効性と解釈可能性を示す。
また、実世界のオブジェクト発見において、接地されたスロットが教師なしのスロットを超越し、シーンの複雑さとともにスケールすることが示される。
論文 参考訳(メタデータ) (2024-02-02T12:37:23Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。