論文の概要: AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding
- arxiv url: http://arxiv.org/abs/2606.06155v1
- Date: Thu, 04 Jun 2026 13:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.817137
- Title: AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding
- Title(参考訳): AffordanceVLA: Affordance-Aware Understandingによる行動生成を支援する視覚言語-行動モデル
- Authors: Qize Yu, Jiadi You, Yuran Wang, Jiaqi Liang, Bowen Ping, Yang Tian, Yue Chen, Minghong Cai, Zeying Gong, Ruihai Wu, Yinchuan Li, Junwei Liang, Yingcong Chen,
- Abstract要約: AffordanceVLAは、タスク指向の中間表現として構造化された価格予測を導入する統一フレームワークである。
AffordanceVLAは様々な操作シナリオで高いパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 55.535374902204296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models leverage the rich world knowledge of pretrained vision-language models (VLMs) to enable instruction-following robotic manipulation. However, the structural mismatch between VLM semantic spaces and embodied control policies often hinders the learning of precise perception--action mappings. To address this challenge, we propose \textbf{AffordanceVLA}, a unified framework that introduces structured affordance forecasting as a task-oriented intermediate representation to establish a more precise and robust perception--action mapping. Specifically, we progressively model manipulation priors through three complementary components: 1) \textbf{Which2Act} for object-centric grounding via visual latent prediction to suppress distractions; 2) \textbf{Where2Act} for 2D interaction localization via affordance map estimation; and 3) \textbf{How2Act} for 3D geometric reasoning to guide manipulation policies. These affordance cues provide spatially grounded, semantically conditioned, and action-coupled intermediate representations, thereby naturally bridging vision, language and action. We integrate these modules into a Mixture-of-Transformer (MoT) architecture with specialized experts and train the model using a three-stage training strategy with a progressive data curriculum. To overcome the scarcity of dense affordance labels in robotic datasets, we also develop a robust automated data augmentation pipeline. Extensive experiments on simulation and real-world demonstrate that AffordanceVLA achieves strong performance across diverse manipulation scenarios.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)の豊かな世界知識を活用して、指示追従ロボット操作を可能にする。
しかしながら、VLM意味空間と具体的制御ポリシーの間の構造的ミスマッチは、しばしば正確な知覚-行動マッピングの学習を妨げる。
この課題に対処するために、より正確で堅牢な知覚-行動マッピングを確立するために、タスク指向の中間表現として構造化された割当予測を導入する統合フレームワークである「textbf{AffordanceVLA}」を提案する。
具体的には、3つの相補的なコンポーネントを通して、操作の事前を段階的にモデル化する。
1) 視覚的潜伏予測による物体中心接地のための「textbf{Which2Act}」
2)空き地地図推定による2次元インタラクションローカライゼーションのためのtextbf{Where2Act}
3)3次元幾何学的推論のための \textbf{How2Act} は、操作ポリシーをガイドする。
これらの手頃な手段は、空間的に接地され、意味的に条件付けされ、アクション結合された中間表現を提供し、それによって視覚、言語、行動が自然にブリッジされる。
これらのモジュールをMixture-of-Transformer(MoT)アーキテクチャに統合し、プログレッシブデータカリキュラムを備えた3段階のトレーニング戦略を用いてモデルをトレーニングする。
ロボットデータセットにおける高密度アベイランスラベルの不足を克服するために、ロバストな自動データ拡張パイプラインを開発する。
シミュレーションと実世界の大規模な実験により、AffordanceVLAは様々な操作シナリオで高いパフォーマンスを実現している。
関連論文リスト
- GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations [19.347332945780273]
VLA(Vision-Language-Action)モデルは、知覚と行動の統一による汎用ロボット操作の強力な可能性を示している。
ジェスチャーを並列命令として導入し,GesVLA(Gesture-Aware Vision-Language-Action Model)を提案する。
実験結果から,ジェスチャを組み込むことにより,目標の接地精度と人間とロボットの相互作用効率が一貫した改善が得られた。
論文 参考訳(メタデータ) (2026-05-21T17:57:44Z) - From Scene to Object: Text-Guided Dual-Gaze Prediction [17.32439183328327]
解釈可能なドライバーの注意予測は、人間のような自動運転にとって不可欠である。
既存のデータセットは、微粒なオブジェクトレベルのアノテーションではなく、シーンレベルのグローバルな視線のみを提供する。
本稿では,データ構築からモデルアーキテクチャへの完全なパラダイムを確立するための,新しいデュアルブランチの視線予測フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-22T05:11:59Z) - DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI [84.9072161615971]
我々は,物理AI用に設計された身体的負の視覚・言語・アクション・フレームワークであるDM0を提案する。
当社の方法論は,事前トレーニング,中級トレーニング,ポストトライニングという,包括的な3段階のパイプラインに従っています。
RoboChallengeベンチマークの実験では、DM0はスペシャリストとジェネリリストの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-16T17:59:16Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations [26.678553477485362]
本稿では,ロボット操作に適応しながら,事前学習した特徴をよりよく保存するフレームワークを提案する。
提案手法では, (i) 事前学習された特徴を保持するために, 凍結したビジョンを持つデュアルエンコーダ設計と, (ii) モデルの事前学習領域に整合した文字列に連続的なアクションを投入する文字列ベースのアクショントークン化器, (iii) ロボットのデモンストレーションと,空間的推論とアプライアンスを強調する視覚言語データセットを組み合わせた協調学習戦略の3つのコンポーネントを導入している。
論文 参考訳(メタデータ) (2025-09-14T20:08:56Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。