Fugu-MT 論文翻訳(概要): AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

論文の概要: AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.01236v1
Date: Sun, 01 Mar 2026 19:14:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.582312
Title: AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models
Title（参考訳）: AgilePruner: 大規模ビジョンランゲージモデルにおける適応型視覚トーンプルーニングの注意と多様性に関する実証的研究
Authors: Changwoo Baek, Jouwon Song, Sohyeon Kim, Kyeongbo Kong,
Abstract要約: 視覚トークン処理機構を調べるために,特徴多様性と注目スコアエントロピーの尺度として,有効ランク(ランク)を用いた徹底的な経験分析を行った。本分析は,多くの多様性指向プルーニング法が,意図したよりも著しく多様性を保っていることを示している。画像認識の調整を既存のハイブリッドプルーニング戦略に組み込むことで、その性能が一貫して向上することを示す。
参考スコア（独自算出の注目度）: 8.749398216116626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) have adopted visual token pruning strategies to mitigate substantial computational overhead incurred by extensive visual token sequences. While prior works primarily focus on either attention-based or diversity-based pruning methods, in-depth analysis of these approaches' characteristics and limitations remains largely unexplored. In this work, we conduct thorough empirical analysis using effective rank (erank) as a measure of feature diversity and attention score entropy to investigate visual token processing mechanisms and analyze the strengths and weaknesses of each approach. Our analysis reveals two insights: (1) Our erank-based quantitative analysis shows that many diversity-oriented pruning methods preserve substantially less feature diversity than intended; moreover, analysis using the CHAIR dataset reveals that the diversity they do retain is closely tied to increased hallucination frequency compared to attention-based pruning. (2) We further observe that attention-based approaches are more effective on simple images where visual evidence is concentrated, while diversity-based methods better handle complex images with distributed features. Building on these empirical insights, we show that incorporating image-aware adjustments into existing hybrid pruning strategies consistently improves their performance. We also provide a minimal instantiation of our empirical findings through a simple adaptive pruning mechanism, which achieves strong and reliable performance across standard benchmarks as well as hallucination-specific evaluations. Our project page available at https://cvsp-lab.github.io/AgilePruner.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、広範囲な視覚トークンシーケンスによって引き起こされる計算オーバーヘッドを軽減するために、視覚トークンプルーニング戦略を採用している。先行研究は主に注意に基づくか多様性に基づくプルーニング手法に焦点が当てられているが、これらのアプローチの特徴と限界の詳細な分析はほとんど未解明のままである。本研究では,視覚的トークン処理機構を解明し,それぞれのアプローチの強みと弱みを分析するために,特徴多様性と注目スコアエントロピーの尺度として有効なランク(ランク)を用いた徹底的な実験分析を行う。また,本分析では,1つの知見が得られた。1つの分析から,意図したよりも多様性指向のプルーニング手法が著しく少ないことが示され,さらに,CHAIRデータセットを用いて分析した結果,注意に基づくプルーニングと比較して,その多様性は幻覚の頻度の増加と密接な関係があることが判明した。 2) 視覚的エビデンスを集中した単純な画像に対して,注意に基づくアプローチがより効果的であるのに対し,多様性に基づく手法は複雑な画像に分散した特徴を扱いやすくする。これらの経験的洞察に基づいて、画像認識の調整を既存のハイブリッドプルーニング戦略に組み込むことで、その性能が一貫して向上することを示す。また,実験結果の最小限のインスタンス化を適応型プルーニング機構により実現し,標準ベンチマークと幻覚特異的評価を併用して,信頼性の高い性能を実現する。私たちのプロジェクトページはhttps://cvsp-lab.github.io/AgilePruner.comで公開しています。

関連論文リスト

Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文参考訳（メタデータ） (2025-10-10T11:25:33Z)
RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文参考訳（メタデータ） (2025-09-26T13:53:25Z)
HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。 HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文参考訳（メタデータ） (2025-07-28T15:09:52Z)
GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models [5.025353943896242]
GreedyPruneは、セマンティックサリエンシと視覚的多様性を最適化するために設計された、トレーニング不要のビジュアルトークンプルーニングアルゴリズムである。 GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し、エンドツーエンドの推論遅延を大幅に低減することを示す。
論文参考訳（メタデータ） (2025-06-16T07:21:11Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Vision-Enhanced Semantic Entity Recognition in Document Images via Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文参考訳（メタデータ） (2023-10-23T10:37:22Z)
Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文参考訳（メタデータ） (2022-06-20T03:09:46Z)
Deep Collaborative Multi-Modal Learning for Unsupervised Kinship Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文参考訳（メタデータ） (2021-09-07T01:34:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。