論文の概要: DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models
- arxiv url: http://arxiv.org/abs/2601.16065v1
- Date: Thu, 22 Jan 2026 16:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.642518
- Title: DTP: A Simple yet Effective Distracting Token Pruning Framework for Vision-Language Action Models
- Title(参考訳): DTP:視覚言語行動モデルのための簡易かつ効果的な抽出処理フレームワーク
- Authors: Chenyang Li, Jieyuan Liu, Bin Li, Bo Gao, Yilin Yuan, Yangfan He, Yuchen Li, Jingqun Tang,
- Abstract要約: VLA(Vision-Language Action)モデルは、ロボット操作において顕著な進歩を見せている。
VLAモデルはタスク関連領域のイメージトークンに過度に参加する可能性がある。
この振る舞いは、各ステップにおける望ましいアクショントークンの生成からモデルを邪魔し、タスクの成功率に影響を与える可能性がある。
- 参考スコア(独自算出の注目度): 25.91822750707556
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-Language Action (VLA) models have shown remarkable progress in robotic manipulation by leveraging the powerful perception abilities of Vision-Language Models (VLMs) to understand environments and directly output actions. However, by default, VLA models may overly attend to image tokens in the task-irrelevant region, which we describe as 'distracting tokens'. This behavior can disturb the model from the generation of the desired action tokens in each step, affecting the success rate of tasks. In this paper, we introduce a simple yet effective plug-and-play Distracting Token Pruning (DTP) framework, which dynamically detects and prunes these distracting image tokens. By correcting the model's visual attention patterns, we aim to improve the task success rate, as well as exploring the performance upper boundaries of the model without altering its original architecture or adding additional inputs. Experiments on the SIMPLER Benchmark (Li et al., 2024) show that our method consistently achieving relative improvements in task success rates across different types of novel VLA models, demonstrating generalizability to transformer-based VLAs. Further analysis reveals a negative correlation between the task success rate and the amount of attentions in the task-irrelevant region for all models tested, highlighting a common phenomenon of VLA models that could guide future research. We also publish our code at: https://anonymous.4open.science/r/CBD3.
- Abstract(参考訳): Vision-Language Action (VLA)モデルは、VLM(Vision-Language Models)の強力な知覚能力を活用して、環境を理解し、アクションを直接出力することで、ロボット操作の顕著な進歩を示している。
しかし、デフォルトでは、VLAモデルはタスク関連領域のイメージトークンに過剰に参加する可能性がある。
この振る舞いは、各ステップにおける望ましいアクショントークンの生成からモデルを邪魔し、タスクの成功率に影響を与える可能性がある。
本稿では,これらの散らばった画像トークンを動的に検出しプーンする,シンプルで効果的なプラグ・アンド・プレイ・ディストリクト・トケン・プルーニング(DTP)フレームワークを提案する。
モデルの視覚的注意パターンを補正することにより、タスクの成功率の向上と、オリジナルのアーキテクチャを変更したり追加の入力を追加することなく、モデルの性能上界を探索することを目指している。
SIMPLERベンチマーク実験(Li et al , 2024)では, 異なるタイプの新規VLAモデルにおけるタスク成功率の相対的改善を一貫して達成し, トランスフォーマーベースのVLAに対する一般化性を示す。
さらなる分析では、タスク成功率とテスト対象のすべてのモデルにおけるタスク非関連領域の注意度との間に負の相関が示され、今後の研究を導く可能性のあるVLAモデルの共通の現象が浮かび上がっている。
コードも、https://anonymous.4open.science/r/CBD3で公開しています。
関連論文リスト
- Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching [23.52474883720957]
VLA(Vision-Language-Action)モデルは、視覚知覚と言語命令から直接のアクション生成を可能にする強力なマルチモーダル推論能力を示している。
本稿では,フレーム間の静的な視覚トークンを適応的にキャッシュ・再利用することにより,計算オーバーヘッドを低減する訓練不要な推論高速化手法であるVLA-Cacheを紹介する。
論文 参考訳(メタデータ) (2025-02-04T09:48:14Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。