論文の概要: Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning
- arxiv url: http://arxiv.org/abs/2602.02951v1
- Date: Tue, 03 Feb 2026 00:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.15791
- Title: Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning
- Title(参考訳): ヌワ:VLMトーケンプルーニングによる空間積分トルクの加工
- Authors: Yihong Huang, Fei Ma, Yihua Shao, Jingcai Guo, Zitong Yu, Laizhong Cui, Qi Tian,
- Abstract要約: ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
- 参考スコア(独自算出の注目度): 82.39668822222386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision token pruning has proven to be an effective acceleration technique for the efficient Vision Language Model (VLM). However, existing pruning methods demonstrate excellent performance preservation in visual question answering (VQA) and suffer substantial degradation on visual grounding (VG) tasks. Our analysis of the VLM's processing pipeline reveals that strategies utilizing global semantic similarity and attention scores lose the global spatial reference frame, which is derived from the interactions of tokens' positional information. Motivated by these findings, we propose $\text{Nüwa}$, a two-stage token pruning framework that enables efficient feature aggregation while maintaining spatial integrity. In the first stage, after the vision encoder, we apply three operations, namely separation, alignment, and aggregation, which are inspired by swarm intelligence algorithms to retain information-rich global spatial anchors. In the second stage, within the LLM, we perform text-guided pruning to retain task-relevant visual tokens. Extensive experiments demonstrate that $\text{Nüwa}$ achieves SOTA performance on multiple VQA benchmarks (from 94% to 95%) and yields substantial improvements on visual grounding tasks (from 7% to 47%).
- Abstract(参考訳): 視覚トークンプルーニングは、効率的な視覚言語モデル(VLM)の効果的な加速技術であることが証明されている。
しかし,既存のプルーニング手法は視覚的質問応答(VQA)において優れた性能を保ち,視覚的グラウンドリング(VG)タスクにおいてかなりの劣化を経験している。
VLMの処理パイプラインの解析により,グローバルな意味的類似性や注目スコアを利用した戦略が,トークンの位置情報との相互作用から得られたグローバルな空間参照フレームを失うことが明らかになった。
これらの知見に触発されて,空間的整合性を維持しつつ,効率的な特徴集約を可能にする2段階のトークンプルーニングフレームワークである$\text{Nüwa}$を提案する。
最初の段階では、視覚エンコーダの後、3つの操作、すなわち分離、アライメント、アグリゲーションを適用します。
第2段階では、LLM内で、タスク関連視覚トークンを保持するためにテキスト誘導プルーニングを行う。
大規模な実験では、$\text{Nüwa}$が複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
関連論文リスト
- Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score [14.857585045577165]
HIVTPは、VLM(Vision-Language Models)推論効率を改善するためのトレーニング不要の手法である。
本稿では,グローバルかつ局所的に重要な視覚トークンを保持するための階層的視覚トークンプルーニング手法を提案する。
HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減できることを示した。
論文 参考訳(メタデータ) (2025-09-28T05:53:39Z) - Eye Gaze Tells You Where to Compute: Gaze-Driven Efficient VLMs [1.985072438058346]
本稿では、人間の視線を天然の監視信号として利用し、それが重要な位置を割り振る学習自由フレームワークであるGazeVLMを提案する。
以上の結果から,モデル計算と人間の視線との整合性は,消費者デバイス上での効率的なVLM推論への簡単なプラグアンドプレイパスを提供することが示された。
論文 参考訳(メタデータ) (2025-09-20T00:16:48Z) - Event-Priori-Based Vision-Language Model for Efficient Visual Understanding [13.540340702321911]
Event-Priori-Based Vision-Language Model (EP-VLM)は、VLM推論効率を改善する。
EP-VLMはダイナミックイベントビジョンから派生した動作先をVLM効率を高めるために使用する。
論文 参考訳(メタデータ) (2025-06-09T10:45:35Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。
このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。
本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding [33.33424214458285]
視覚言語モデル(VLM)は、様々な下流タスクで顕著な性能を示した。
しかし、属性やオブジェクト間の関係など、きめ細かい視覚言語概念を理解することは、依然として重要な課題である。
他のすべての面において一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-30T03:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。