Fugu-MT 論文翻訳(概要): Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

論文の概要: Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2603.24941v1
Date: Thu, 26 Mar 2026 02:13:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:48.051089
Title: Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models
Title（参考訳）: 注意力の超越:高能率ビジョン・ランゲージ・アクションモデルにおける階層間ランク一貫性の活用
Authors: Peiju Liu, Jinming Liu, Xipeng Qiu, Xuanjing Huang,
Abstract要約: textbfTIES(textbfTau-guided textbfInter-layer textbfEfficient textbfSelection)は、層間トークンランキングの整合性によって導かれる動的フレームワークである。 CogACT + SIMPLERベンチマークでは、TIESは平均成功率を6%改善し、トークン使用率を78%削減した。
参考スコア（独自算出の注目度）: 75.27089289058613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models excel in robotic manipulation but suffer from significant inference latency due to processing dense visual tokens. Existing token reduction methods predominantly rely on attention magnitude as a static selection. In this work, we challenge this assumption, revealing that high-attention tokens are task-dependent and can even degrade policy performance. To address this, we introduce \textbf{TIES} (\textbf{T}au-guided \textbf{I}nter-layer \textbf{E}fficient \textbf{S}election), a dynamic framework guided by inter-layer token ranking consistency. By adaptively balancing attention magnitude with ranking consistency, TIES ensures robust token selection without requiring additional training. On the CogACT + SIMPLER benchmark, TIES improves average success rates by 6\% while reducing token usage by 78\%, and demonstrate strong generalization across diverse decoders and benchmarks.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルはロボット操作に優れるが、濃密な視覚トークンの処理によって大きな推論遅延に悩まされる。既存のトークン還元法は、主に静的選択として注意度に依存している。本研究では,高アテンショントークンがタスク依存であり,政策性能を低下させる可能性がある,という仮定に挑戦する。これを解決するために、層間トークンランキングの整合性によって導かれる動的フレームワークである \textbf{TIES} (\textbf{T}au-guided \textbf{I}nter-layer \textbf{E}fficient \textbf{S}election) を導入する。注目度とランクの整合性を適応的にバランスさせることで、TIESは追加のトレーニングを必要とせず、堅牢なトークン選択を保証する。 CogACT + SIMPLERベンチマークでは、TIESは平均成功率を6\%改善し、トークン使用率を78\%削減した。

関連論文リスト

D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。 FLOPを74.2%削減し、元の性能の99.2%を維持した。既存の手法に比べて63.53%も改善されている。
論文参考訳（メタデータ） (2025-12-22T14:42:31Z)
ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文参考訳（メタデータ） (2025-10-20T06:18:47Z)
AdaptInfer: Adaptive Token Pruning for Vision-Language Model Inference with Dynamical Text Guidance [7.594255363909475]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)のような多モーダル推論タスクにおいて印象的な性能を達成した。プリフィル段階で処理される多数の視覚トークンのために、それらの推論コストは依然として大きな課題である。既存のプルーニング手法は、しばしばアテンションパターンや静的テキストプロンプトガイダンスを直接使用することに依存し、推論時に発生する動的内部信号の活用に失敗する。 InVLMにおける適応型視覚トークンプルーニングのためのプラグイン・アンド・プレイフレームワークであるAdaptInferを提案する。
論文参考訳（メタデータ） (2025-08-08T07:27:26Z)
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文参考訳（メタデータ） (2025-03-24T01:47:26Z)
Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文参考訳（メタデータ） (2025-02-17T08:39:43Z)
Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。 SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文参考訳（メタデータ） (2024-05-22T04:49:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。