論文の概要: PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention
- arxiv url: http://arxiv.org/abs/2512.03724v1
- Date: Wed, 03 Dec 2025 12:14:29 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:40.191208
- Title: PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention
- Title(参考訳): PosA-VLA: Pose-Conditioned Anchor Attention によるアクション生成の強化
- Authors: Ziwen Li, Xin Wang, Hanlue Zhang, Runnan Chen, Runqi Lin, Xiao He, Han Huang, Yandong Guo, Fakhri Karray, Tongliang Liu, Mingming Gong,
- Abstract要約: PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
- 参考スコア(独自算出の注目度): 92.85371254435074
- License:
- Abstract: The Vision-Language-Action (VLA) models have demonstrated remarkable performance on embodied tasks and shown promising potential for real-world applications. However, current VLAs still struggle to produce consistent and precise target-oriented actions, as they often generate redundant or unstable motions along trajectories, limiting their applicability in time-sensitive scenarios.In this work, we attribute these redundant actions to the spatially uniform perception field of existing VLAs, which causes them to be distracted by target-irrelevant objects, especially in complex environments.To address this issue, we propose an efficient PosA-VLA framework that anchors visual attention via pose-conditioned supervision, consistently guiding the model's perception toward task-relevant regions. The pose-conditioned anchor attention mechanism enables the model to better align instruction semantics with actionable visual cues, thereby improving action generation precision and efficiency. Moreover, our framework adopts a lightweight architecture and requires no auxiliary perception modules (e.g., segmentation or grounding networks), ensuring efficient inference. Extensive experiments verify that our method executes embodied tasks with precise and time-efficient behavior across diverse robotic manipulation benchmarks and shows robust generalization in a variety of challenging environments.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、具体化されたタスクにおいて顕著なパフォーマンスを示し、現実世界のアプリケーションに有望な可能性を示している。
しかしながら、現在のVLAは、しばしば軌道に沿って冗長または不安定な動きを発生させ、時間に敏感なシナリオにおいて適用性を制限するため、常に一貫した目標指向の動作を生成するのに苦慮している。この記事では、これらの冗長な動作を既存のVLAの空間的に均一な認識領域とみなし、特に複雑な環境においてターゲット非関連な物体に注意をそらされる原因となり、その問題に対処するため、ポーズ条件付き監視を通じて視覚的注意を保ち、モデルのタスク関連領域に対する認識を一貫して導く、効率的なPosA-VLAフレームワークを提案する。
ポーズ条件付きアンカーアテンション機構により、モデルが命令セマンティクスをアクション可能な視覚的手がかりとよりよく整合し、アクション生成精度と効率を向上させることができる。
さらに,本フレームワークは軽量なアーキテクチャを採用し,補助的な知覚モジュール(セグメンテーションやグラウンドリングネットワークなど)を必要とせず,効率的な推論を実現する。
大規模実験により, 多様なロボット操作ベンチマークにおいて, 高精度かつ時間効率な動作で実施し, 様々な課題のある環境において, 堅牢な一般化を示すことが確認された。
関連論文リスト
- Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA [21.362682837521632]
Latent Action Models (LAMs) は、視覚言語制御システムにおいて、大規模な無注釈データからセマンティック・アクション・リセプションを学習することを可能にする。
Farsighted-LAMを提案する。これは幾何学的空間符号化とマルチスケール時間的モデリングを備えた潜在アクションフレームワークである。
さらに,Farsighted-LAM上に構築されたエンドツーエンドVLAフレームワークであるSSM-VLAを提案する。
論文 参考訳(メタデータ) (2025-09-30T13:41:43Z) - PhysiAgent: An Embodied Agent Framework in Physical World [33.821400205384144]
VLA(Vision-Language-Action)モデルは顕著な成功を収めたが、しばしば限定的な一般化に苦戦している。
現在のアプローチはしばしばこれらのモデルを厳密でシーケンシャルな構造に組み合わせる。
本研究では,物理環境において効果的に動作するように調整された物理エージェントフレームワークであるPhysorAgentを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:39:32Z) - Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy [47.51062818231493]
本稿では,カメラの観測空間にアクション予測を直接適用するOC-VLA(Observatory-Centric VLA)フレームワークを紹介する。
OC-VLAは、ロボットベース座標系からカメラ座標系にエンドエフェクターポーズを変換する。
この戦略は、カメラ視点の変化に対するモデルレジリエンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-18T17:10:45Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。