論文の概要: GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
- arxiv url: http://arxiv.org/abs/2605.12369v1
- Date: Tue, 12 May 2026 16:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.020093
- Title: GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization
- Title(参考訳): GuidedVLA: Plug-and-Play Action Attention Specializationによるタスク関連要因の特定
- Authors: Xiaosong Jia, Bowen Yang, Zuhao Ge, Xian Nie, Yuchen Zhou, Cunxin Fan, Yufeng Li, Yilin Chai, Chao Jing, Zijian Liang, Qingwen Bu, Haidong Cao, Chao Wu, Qifeng Li, Zhenjie Yang, Chenhe Zhang, Hongyang Li, Zuxuan Wu, Junchi Yan, Yu-Gang Jiang,
- Abstract要約: 本稿では,タスク関連要因に着目したアクション生成を支援するフレームワークである GuidedVLA を紹介する。
私たちの中核的な洞察は、アクションデコーダをモノリシックな学習者としてではなく、機能的なコンポーネントの集合として扱うことです。
この結果から,アクションデコーダ学習を明示的に指導することが,より堅牢で汎用的なVLAモデルを構築する上で有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 101.37117235471709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models aim for general robot learning by aligning action as a modality within powerful Vision-Language Models (VLMs). Existing VLAs rely on end-to-end supervision to implicitly enable the action decoding process to learn task-relevant features. However, without explicit guidance, these models often overfit to spurious correlations, such as visual shortcuts or environmental noise, limiting their generalization. In this paper, we introduce GuidedVLA, a framework designed to manually guide the action generation to focus on task-relevant factors. Our core insight is to treat the action decoder not as a monolithic learner, but as an assembly of functional components. Individual attention heads are supervised by manually defined auxiliary signals to capture distinct factors. As an initial study, we instantiate this paradigm with three specialized heads: object grounding, spatial geometry, and temporal skill logic. Across simulation and real-robot experiments, GuidedVLA improves success rates in both in-domain and out-of-domain settings compared to strong VLA baselines. Finally, we show that the quality of these specialized factors correlates positively with task performance and that our mechanism yields decoupled, high-quality features. Our results suggest that explicitly guiding action-decoder learning is a promising direction for building more robust and general VLA models.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、強力なVision-Language Model(VLM)内のモダリティとして行動を調整することで、一般的なロボット学習を目指している。
既存のVLAは、タスク関連機能を暗黙的に学習するために、エンド・ツー・エンドの監視に依存している。
しかし、明示的なガイダンスがなければ、これらのモデルは視覚的ショートカットや環境騒音のような刺激的な相関に過度に適合し、一般化を制限している。
本稿では,タスク関連要因に着目したアクション生成を手動でガイドするフレームワークである GuidedVLA を紹介する。
私たちの中核的な洞察は、アクションデコーダをモノリシックな学習者としてではなく、機能的なコンポーネントの集合として扱うことです。
個々のアテンションヘッドは、手動で定義された補助信号によって制御され、異なる要因を捉える。
最初の研究として、このパラダイムをオブジェクトグラウンド、空間幾何学、時間的スキルロジックの3つの特別なヘッドでインスタンス化する。
シミュレーションと実ロボット実験を通じて、 GuidedVLAは、強力なVLAベースラインと比較して、ドメイン内設定とドメイン外設定の両方の成功率を改善する。
最後に、これらの特殊要因の質がタスク性能と正に相関し、我々のメカニズムが疎結合で高品質な特徴をもたらすことを示す。
この結果から,アクションデコーダ学習を明示的に指導することが,より堅牢で汎用的なVLAモデルを構築する上で有望な方向であることが示唆された。
関連論文リスト
- From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models [14.109112325287208]
本研究は,2つの視点から潜時行動監視に関する研究である。 (i) 画像に基づく潜時行動による軌道の規則化, (ii) 行動に基づく潜時行動による目標空間の統一である。
以上の結果より, 動作に基づく潜在動作は複雑な運動調整において優れるが, 定式化タスク対応は明らかである。
論文 参考訳(メタデータ) (2026-05-06T09:27:07Z) - ReFineVLA: Multimodal Reasoning-Aware Generalist Robotic Policies via Teacher-Guided Fine-Tuning [10.039310538887833]
VLA(Vision-Language-Action)モデルが研究コミュニティから注目を集めている。
それらの進歩にもかかわらず、VLAモデルは明示的な推論を見落とし、機能的なインプット・アクション・マッピングを学ぶ。
ReFineVLAは教師が指導する理由でVLAモデルを微調整するマルチモーダル推論対応フレームワークである。
論文 参考訳(メタデータ) (2026-04-20T04:46:20Z) - OmniGuide: Universal Guidance Fields for Enhancing Generalist Robot Policies [75.40720507604647]
視覚言語アクション(VLA)モデルは、比較的単純なタスクの多岐にわたるジェネラリストポリシーとして、非常に有望である。
本稿では,任意の指導源を活用することで,このようなタスクにおけるVLA性能を向上させるフレキシブルなフレームワークを提案する。
本研究では,3次元空間内に存在するタスク特異的アトラクタとレペラを用いて,自然に何種類のガイダンスを微分可能エネルギー関数として表現できるかを示す。
論文 参考訳(メタデータ) (2026-03-09T17:18:13Z) - ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。
我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文 参考訳(メタデータ) (2026-02-17T07:07:15Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。