論文の概要: Afford-VLA: Action-Aligned Visual Planning via Internalized Affordance
- arxiv url: http://arxiv.org/abs/2605.24203v1
- Date: Fri, 22 May 2026 20:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:30:46.65661
- Title: Afford-VLA: Action-Aligned Visual Planning via Internalized Affordance
- Title(参考訳): Afford-VLA: 内部処理による行動適応型ビジュアルプランニング
- Authors: Runze Wang, Yuqian Fu, Yu Li, Tao Lin, Tianwen Qian, Mohamed Elhoseiny, Bo Zhao, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue,
- Abstract要約: 効果的なプランニングは、ローカルで、視覚的に基礎があり、内部で生成され、アクションと直接整合するべきである、と私たちは主張する。
本稿では,タスク条件付きアベイランスをVLAモデル内で明示的な視覚的計画インターフェースとして内包する統合フレームワークであるAfford-VLAを提案する。
- 参考スコア(独自算出の注目度): 108.46436073194546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models have shown strong potential for generalist robot manipulation, yet they remain limited by insufficient spatial reasoning, particularly in determining where to interact in complex visual scenes. While recent efforts introduce various forms of visual planning to address this issue, existing approaches either rely on global geometric cues, symbolic intermediate representations, or externally generated visual signals, which are often weakly coupled with downstream action prediction. In this work, we revisit visual planning in VLA systems and argue that effective planning should be local, visually grounded, internally generated, and directly aligned with action. Based on this insight, we propose Afford-VLA, a unified framework that internalizes task-conditioned affordance as an explicit visual planning interface within VLA models. Concretely, we introduce learnable <AFF> tokens to query task-relevant interaction regions, decode affordance masks from multimodal features, and convert them into compact embeddings that directly condition action generation. This design enables affordance to be both generated and utilized within the VLA, forming a tightly coupled perception-action pathway. To further support this integration, we adopt a training strategy that allows the affordance pathway to be jointly optimized with action prediction, improving its effectiveness for downstream control. We evaluate our method on multiple simulation benchmarks, including LIBERO, LIBERO-Plus, and SimplerEnv, achieving consistent state-of-the-art performance, along with strong real-world results. These findings demonstrate that internalizing affordance as action-aligned visual planning provides a powerful paradigm for improving VLA systems.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、一般的なロボット操作の強い可能性を示しているが、空間的推論が不十分なため、特に複雑な視覚シーンにおける相互作用の場所を決定することは限られている。
近年の取り組みでは、この問題に対処するための様々な視覚的計画法が提案されているが、既存のアプローチは、グローバルな幾何学的手がかり、記号的中間表現、あるいは、しばしば下流の行動予測と弱い結合である外部的に生成された視覚信号に依存している。
本研究は,VLAシステムにおける視覚計画を再考し,効果的計画は局所的,視覚的基盤的,内部的に生成され,行動と直接整合するべきであると論じる。
この知見に基づいて,タスク条件付きアベイランスをVLAモデル内で明示的な視覚的計画インターフェースとして内包する統合フレームワークであるAfford-VLAを提案する。
具体的には,タスク関連インタラクション領域を問合せする学習可能な<AFF>トークンを導入し,マルチモーダルな特徴から余剰マスクをデコードし,アクション生成を直接条件付けするコンパクトな埋め込みに変換する。
この設計により、VLA内での空き時間の生成と利用が可能となり、密結合された知覚反応経路を形成する。
この統合をさらに支援するため、我々は、アベイランス経路をアクション予測と協調的に最適化し、下流制御の有効性を向上させるためのトレーニング戦略を採用した。
LIBERO, LIBERO-Plus, SimplerEnv など複数のシミュレーションベンチマークを用いて, 高い実世界の結果とともに一貫した技術性能を実現する。
これらの結果から,アクション・アライン・ビジュアル・プランニングとしての能力の内在化が,VLAシステムの改善に有効なパラダイムであることが示唆された。
関連論文リスト
- Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models [15.486973209713954]
GTA-VLA(Guide, Think, Act)はインタラクティブなビジョンランゲージ・アクション・フレームワークである。
ユーザがロボットポリシーを明示的な視覚的手がかりでガイドできるようにすることで、空間的に操作可能な具体的推論を可能にする。
論文 参考訳(メタデータ) (2026-05-13T14:58:29Z) - From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models [14.109112325287208]
本研究は,2つの視点から潜時行動監視に関する研究である。 (i) 画像に基づく潜時行動による軌道の規則化, (ii) 行動に基づく潜時行動による目標空間の統一である。
以上の結果より, 動作に基づく潜在動作は複雑な運動調整において優れるが, 定式化タスク対応は明らかである。
論文 参考訳(メタデータ) (2026-05-06T09:27:07Z) - Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models [66.96421290733126]
VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場した。
我々はtextbfVision-Language Mixture-of-Transformers (VL-MoT) フレームワーク上に構築した textbfDeepVision-VLA を提案する。
DeepVision-VLAは、シミュレーションされたタスクと実世界のタスクで、それぞれ9.0%と7.5%の先行の最先端メソッドより優れている。
論文 参考訳(メタデータ) (2026-03-16T17:59:54Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。