Fugu-MT 論文翻訳(概要): Grounding-Aware Token Pruning: Recovering from Drastic Performance Drops in Visual Grounding Caused by Pruning

論文の概要: Grounding-Aware Token Pruning: Recovering from Drastic Performance Drops in Visual Grounding Caused by Pruning

arxiv url: http://arxiv.org/abs/2506.21873v1
Date: Fri, 27 Jun 2025 03:11:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.066267
Title: Grounding-Aware Token Pruning: Recovering from Drastic Performance Drops in Visual Grounding Caused by Pruning
Title（参考訳）: グラウンドング対応トーケンプルーニング:プルーニングによる視覚的グラウンドニングにおける劇的な性能低下からの回復
Authors: Tzu-Chun Chien, Chieh-Kai Lin, Shiang-Feng Tsai, Ruei-Chi Lai, Hung-Jen Chen, Min Sun,
Abstract要約: MLLM(Multimodal Large Language Models)は、視覚的接地において強力な性能を示す。我々はプルーニングがモデルのグラウンド化能力を大幅に低下させ、誤った予測と劇的な性能低下をもたらすことを観察した。位置IDを簡易かつ効果的に調整し,RECの精度を51.42%まで回復するGrounding-Aware Token Pruning (GAP)を提案する。
参考スコア（独自算出の注目度）: 10.271284217509482
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent Multimodal Large Language Models (MLLMs) have demonstrated strong performance in visual grounding, establishing themselves as a general interface for various vision-language applications. This progress has driven the development of token pruning methods to mitigate the high computational costs associated with processing numerous visual tokens. However, we observe that pruning significantly weakens the model's grounding ability, leading to incorrect predictions and drastic performance degradation. In Referring Expression Comprehension (REC), for instance, pruning causes the accuracy of LLaVA on the RefCOCO validation set to drop from 56.14% to 15.34%. Our analysis identifies misaligned position IDs after pruning as the primary cause of this degradation, as both the order and value of these IDs are crucial for maintaining performance in grounding tasks. To address this issue, we propose Grounding-Aware Token Pruning (GAP), a simple yet effective adjustment to position IDs that recovers REC accuracy back to 51.42%, which is 90% of the original performance in the without pruning setting, all while requiring no additional training, memory, or computational overhead. Applied to models such as Shikra, MiniGPTv2, and the LLaVA series, our method consistently improves performance across various token pruning strategies.
Abstract（参考訳）: 近年,MLLM (Multimodal Large Language Models) は視覚的接地において高い性能を示し,様々な視覚言語アプリケーションのための汎用インターフェースとして確立されている。この進歩により、多数の視覚的トークンを処理することに伴う高い計算コストを軽減するために、トークンプルーニング法の開発が進められた。しかし, プルーニングはモデルのグラウンド化能力を大幅に低下させ, 誤った予測と劇的な性能低下を招いた。例えばReferring Expression Comprehension (REC)では、プルーニングはRefCOCO検証セットにおけるLLaVAの精度を56.14%から15.34%に低下させる。この劣化の原因として, プルーニング後の位置IDの整合性について検討し, グラウンドニング作業における性能維持には, これらのIDの順序と値の両面が不可欠であることを示す。この問題に対処するため,我々は,新たなトレーニングやメモリ,計算オーバーヘッドを必要とせず,初期性能の90%にあたる51.42%までREC精度を回復する位置IDの簡易かつ効果的な調整法であるGrounding-Aware Token Pruning (GAP)を提案する。 Shikra, MiniGPTv2, LLaVA シリーズなどのモデルに適用することにより, 各種トークンプルーニング戦略の性能を継続的に向上する。

関連論文リスト

A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文参考訳（メタデータ） (2025-08-03T02:15:43Z)
High-Layer Attention Pruning with Rescaling [14.141903038286362]
プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
論文参考訳（メタデータ） (2025-07-02T17:15:05Z)
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文参考訳（メタデータ） (2024-11-08T12:08:17Z)
Patch Ranking: Efficient CLIP by Learning to Rank Local Patches [11.225834286969283]
ViT効率を向上する現在の戦略はパッチトークンのプルーニングに重点を置いているが、CLIPのマルチモーダルな性質に対処するには不足している。我々は「黄金ランキング」を確立するための欲求探索手法を提案し、このランキングを近似するために特別に訓練された軽量な予測器を導入する。 CLIPのViTではパッチトークンの40%を削減できたが、7つのデータセットの平均精度損失は0.3に過ぎなかった。
論文参考訳（メタデータ） (2024-09-22T22:04:26Z)
SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文参考訳（メタデータ） (2024-07-23T20:34:23Z)
Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文参考訳（メタデータ） (2024-02-04T07:49:02Z)
Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文参考訳（メタデータ） (2023-06-12T11:55:33Z)
Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文参考訳（メタデータ） (2022-09-28T03:07:32Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。