論文の概要: Walk and Read Less: Improving the Efficiency of Vision-and-Language Navigation via Tuning-Free Multimodal Token Pruning
- arxiv url: http://arxiv.org/abs/2509.15250v2
- Date: Mon, 22 Sep 2025 01:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 12:27:33.509494
- Title: Walk and Read Less: Improving the Efficiency of Vision-and-Language Navigation via Tuning-Free Multimodal Token Pruning
- Title(参考訳): ウォーキング・アンド・リードの低下: 調整不要なマルチモーダルトケンプルーニングによる視覚・言語ナビゲーションの効率化
- Authors: Wenda Qin, Andrea Burns, Bryan A. Plummer, Margrit Betke,
- Abstract要約: トーケンプルーニングは、性能損失を最小限に抑えながら、効率をアピールするトレードオフを提供する。
本研究では,ナビゲーション固有の特徴を活かしたナビゲーション・アウェア・プルーニング(NAP)を提案する。
NAPは以前の作業よりも優れており、50%以上のFLOPSを節約しながら高い成功率を維持している。
- 参考スコア(独自算出の注目度): 30.534424503743654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large models achieve strong performance on Vision-and-Language Navigation (VLN) tasks, but are costly to run in resource-limited environments. Token pruning offers appealing tradeoffs for efficiency with minimal performance loss by reducing model input size, but prior work overlooks VLN-specific challenges. For example, information loss from pruning can effectively increase computational cost due to longer walks. Thus, the inability to identify uninformative tokens undermines the supposed efficiency gains from pruning. To address this, we propose Navigation-Aware Pruning (NAP), which uses navigation-specific traits to simplify the pruning process by pre-filtering tokens into foreground and background. For example, image views are filtered based on whether the agent can navigate in that direction. We also extract navigation-relevant instructions using a Large Language Model. After filtering, we focus pruning on background tokens, minimizing information loss. To further help avoid increases in navigation length, we discourage backtracking by removing low-importance navigation nodes. Experiments on standard VLN benchmarks show NAP significantly outperforms prior work, preserving higher success rates while saving more than 50% FLOPS.
- Abstract(参考訳): 大規模モデルはビジョン・アンド・ランゲージ・ナビゲーション(VLN)タスクで高いパフォーマンスを達成するが、リソース制限された環境での運用にはコストがかかる。
トケンプルーニングは、モデル入力サイズを小さくすることで、性能損失を最小限に抑えながら、効率の良いトレードオフを提供するが、以前の作業ではVLN固有の課題を見落としている。
例えば、刈り込みによる情報損失は、より長い歩行による計算コストを効果的に増大させることができる。
したがって、非形式的トークンを識別できないことは、プルーニングによる効率の向上を損なう。
そこで本研究では,ナビゲーション固有の特徴を用いたナビゲーション・アウェア・プルーニング(Navigation-Aware Pruning,NAP)を提案する。
例えば、イメージビューはエージェントがその方向にナビゲートできるかどうかに基づいてフィルタリングされる。
また,大規模言語モデルを用いてナビゲーション関連命令を抽出する。
フィルタリング後、バックグラウンドトークンに焦点を合わせ、情報損失を最小限に抑える。
ナビゲーション長の増大を回避するため,低重要ナビゲーションノードを除去することで,バックトラックの回避を図る。
標準的なVLNベンチマークの実験では、NAPは以前の作業よりも大幅に優れており、50%以上のFLOPSを節約しながら高い成功率を維持している。
関連論文リスト
- VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - When Less is Enough: Adaptive Token Reduction for Efficient Image Representation [2.2120851074630177]
より価値の低い特徴を、より価値の高いものから再構築できるという考えに基づいて、特徴ユーティリティを決定する新しい方法を提案する。
我々は、オートエンコーダとGumbel-Softmax選択機構を統合することで、この概念を実装した。
本結果は,適応的かつ効率的なマルチモーダルプルーニングに向けた有望な方向を示すものである。
論文 参考訳(メタデータ) (2025-03-20T19:17:08Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Visual Saliency-Guided Channel Pruning for Deep Visual Detectors in
Autonomous Driving [3.236217153362305]
ディープニューラルネットワーク(DNN)プルーニングは、リソース制約のあるデバイスにデプロイするデファクトコンポーネントになっている。
本稿では,視覚的検出のための勾配に基づく新しいサリエンシ尺度を提案し,それをチャネルプルーニングのガイドに利用する。
KITTIおよびCOCOトラヒックデータセットの実験は、最先端の競合するアプローチよりもプルーニング手法の有効性と優位性を実証している。
論文 参考訳(メタデータ) (2023-03-04T22:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。