論文の概要: OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport
- arxiv url: http://arxiv.org/abs/2602.20205v2
- Date: Wed, 25 Feb 2026 03:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 13:37:25.495478
- Title: OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport
- Title(参考訳): OTPrune: 最適輸送による配電型視覚トーケンプルーニング
- Authors: Xiwen Chen, Wenhui Zhu, Gen Li, Xuanzhao Dong, Yujian Xiong, Hao Wang, Peijie Qiu, Qingquan Song, Zhipeng Wang, Shao Tang, Yalin Wang, Abolfazl Razi,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、強力な視覚言語推論を実現するが、冗長な視覚トークンによって高い推論コストを被る。
最近の研究は、推論を加速するために視覚的トークンプルーニングを探求する一方で、既存のプルーニング手法は、視覚的表現の基盤となる分布構造を見落としている。
本稿では,最適輸送による分散アライメントとしてプルーニングを定式化する,トレーニング不要のフレームワークOTPruneを提案する。
- 参考スコア(独自算出の注目度): 20.586206895801258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) achieve strong visual-language reasoning but suffer from high inference cost due to redundant visual tokens. Recent work explores visual token pruning to accelerate inference, while existing pruning methods overlook the underlying distributional structure of visual representations. We propose OTPrune, a training-free framework that formulates pruning as distribution alignment via optimal transport (OT). By minimizing the 2-Wasserstein distance between the full and pruned token distributions, OTPrune preserves both local diversity and global representativeness while reducing inference cost. Moreover, we derive a tractable submodular objective that enables efficient optimization, and theoretically prove its monotonicity and submodularity, providing a principled foundation for stable and efficient pruning. We further provide a comprehensive analysis that explains how distributional alignment contributes to stable and semantically faithful pruning. Comprehensive experiments on wider benchmarks demonstrate that OTPrune achieves superior performance-efficiency tradeoffs compared to state-of-the-art methods. The code is available at https://github.com/xiwenc1/OTPrune.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、強力な視覚言語推論を実現するが、冗長な視覚トークンによって高い推論コストを被る。
最近の研究は、推論を加速するために視覚的トークンプルーニングを探求する一方で、既存のプルーニング手法は、視覚的表現の基盤となる分布構造を見落としている。
本稿では,最適輸送(OT)を通した分散アライメントとしてプルーニングを定式化する,トレーニング不要のフレームワークOTPruneを提案する。
フルトークンとプルーンドトークンの2-ワッサーシュタイン距離を最小化することで、OTPruneは推論コストを低減しつつ、局所的な多様性とグローバルな代表性の両方を保ちます。
さらに,効率的な最適化を実現するためのトラクタブルなサブモジュラー目標を導出し,そのモノトニック性とサブモジュラリティを理論的に証明し,安定かつ効率的なプルーニングの基礎となる。
さらに、分布アライメントが安定かつセマンティックに忠実なプルーニングにどのように貢献するかを説明する包括的分析を提供する。
より広範なベンチマークに関する総合的な実験は、OTPruneが最先端の手法に比べて優れたパフォーマンスと効率のトレードオフを達成することを示した。
コードはhttps://github.com/xiwenc1/OTPrune.comで公開されている。
関連論文リスト
- FAIL: Flow Matching Adversarial Imitation Learning for Image Generation [52.643484089126844]
フローマッチングモデルのポストトレーニング-高品質な目標値による出力分布の調整-数学的にはImitation Learningと等価である。
本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門的差異を最小限に抑えるフローマッチング・アドリアラーニング(FAIL)を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:36:33Z) - Variational Entropic Optimal Transport [67.76725267984578]
本稿では,ドメイン翻訳問題に対する変分エントロピー最適輸送(VarEOT)を提案する。
VarEOTは、補助正の正規化子上のトラクタブルな一般化として、log-partition $log mathbbE[exp(cdot)$の正確な変分再構成に基づいている。
合成データと画像と画像の変換に関する実験は、競争力のあるか、あるいはより良い翻訳品質を示す。
論文 参考訳(メタデータ) (2026-02-02T15:48:44Z) - Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization [16.627496870394456]
T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。
実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。
以上の結果から,T'yr-the-Prunerは高密度モデルの性能の97%を保ちながら,最先端構造解析を実現していることがわかった。
論文 参考訳(メタデータ) (2025-03-12T11:52:49Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。
PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - Cooperative Distribution Alignment via JSD Upper Bound [7.071749623370137]
教師なし分布アライメントは、2つ以上のソース分布を共有整列分布にマッピングする変換を推定する。
このタスクには、生成モデリング、教師なしドメイン適応、社会的に認識された学習など、多くの応用がある。
我々は,従来のフローベースアプローチを,単一の非逆数フレームワークで統一し,一般化することを提案する。
論文 参考訳(メタデータ) (2022-07-05T20:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。