Fugu-MT 論文翻訳(概要): OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport

論文の概要: OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport

arxiv url: http://arxiv.org/abs/2602.20205v2
Date: Wed, 25 Feb 2026 03:48:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 13:37:25.495478
Title: OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport
Title（参考訳）: OTPrune: 最適輸送による配電型視覚トーケンプルーニング
Authors: Xiwen Chen, Wenhui Zhu, Gen Li, Xuanzhao Dong, Yujian Xiong, Hao Wang, Peijie Qiu, Qingquan Song, Zhipeng Wang, Shao Tang, Yalin Wang, Abolfazl Razi,
Abstract要約: マルチモーダル大言語モデル(MLLM)は、強力な視覚言語推論を実現するが、冗長な視覚トークンによって高い推論コストを被る。最近の研究は、推論を加速するために視覚的トークンプルーニングを探求する一方で、既存のプルーニング手法は、視覚的表現の基盤となる分布構造を見落としている。本稿では,最適輸送による分散アライメントとしてプルーニングを定式化する,トレーニング不要のフレームワークOTPruneを提案する。
参考スコア（独自算出の注目度）: 20.586206895801258
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal large language models (MLLMs) achieve strong visual-language reasoning but suffer from high inference cost due to redundant visual tokens. Recent work explores visual token pruning to accelerate inference, while existing pruning methods overlook the underlying distributional structure of visual representations. We propose OTPrune, a training-free framework that formulates pruning as distribution alignment via optimal transport (OT). By minimizing the 2-Wasserstein distance between the full and pruned token distributions, OTPrune preserves both local diversity and global representativeness while reducing inference cost. Moreover, we derive a tractable submodular objective that enables efficient optimization, and theoretically prove its monotonicity and submodularity, providing a principled foundation for stable and efficient pruning. We further provide a comprehensive analysis that explains how distributional alignment contributes to stable and semantically faithful pruning. Comprehensive experiments on wider benchmarks demonstrate that OTPrune achieves superior performance-efficiency tradeoffs compared to state-of-the-art methods. The code is available at https://github.com/xiwenc1/OTPrune.
Abstract（参考訳）: マルチモーダル大言語モデル(MLLM)は、強力な視覚言語推論を実現するが、冗長な視覚トークンによって高い推論コストを被る。最近の研究は、推論を加速するために視覚的トークンプルーニングを探求する一方で、既存のプルーニング手法は、視覚的表現の基盤となる分布構造を見落としている。本稿では,最適輸送(OT)を通した分散アライメントとしてプルーニングを定式化する,トレーニング不要のフレームワークOTPruneを提案する。フルトークンとプルーンドトークンの2-ワッサーシュタイン距離を最小化することで、OTPruneは推論コストを低減しつつ、局所的な多様性とグローバルな代表性の両方を保ちます。さらに,効率的な最適化を実現するためのトラクタブルなサブモジュラー目標を導出し,そのモノトニック性とサブモジュラリティを理論的に証明し,安定かつ効率的なプルーニングの基礎となる。さらに、分布アライメントが安定かつセマンティックに忠実なプルーニングにどのように貢献するかを説明する包括的分析を提供する。より広範なベンチマークに関する総合的な実験は、OTPruneが最先端の手法に比べて優れたパフォーマンスと効率のトレードオフを達成することを示した。コードはhttps://github.com/xiwenc1/OTPrune.comで公開されている。

関連論文リスト

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models [35.12029704777804]
本稿では,行列-エントロピーの視点を導入し,視覚表現の情報内容が鋭く一貫した低下を示す「エントロピー崩壊層(Entropy Collapse Layer,ECL)」を同定する。 IntropyPruneは,個々のトークンの情報値を定量化し,冗長なトークンをプルーする新しいマトリックスエントロピー誘導型トークンプルーニングフレームワークである。多様なマルチモーダルベンチマークの実験では、エントロピープルーンは精度と効率の両方で最先端のプルーニング法より一貫して優れていることが示されている。
論文参考訳（メタデータ） (2026-02-19T09:29:43Z)
Towards On-Policy SFT: Distribution Discriminant Theory and its Applications in LLM Training [61.1421888242439]
Supervised Fine-tuning (SFT) は計算効率が良いが、強化学習 (RL) に比べて一般化が劣ることが多い。そこで我々は,オンポリシィSFTを有効にすることで,このシャームを橋渡しするフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-12T17:59:58Z)
FAIL: Flow Matching Adversarial Imitation Learning for Image Generation [52.643484089126844]
フローマッチングモデルのポストトレーニング-高品質な目標値による出力分布の調整-数学的にはImitation Learningと等価である。本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門的差異を最小限に抑えるフローマッチング・アドリアラーニング(FAIL)を提案する。
論文参考訳（メタデータ） (2026-02-12T16:36:33Z)
Variational Entropic Optimal Transport [67.76725267984578]
本稿では,ドメイン翻訳問題に対する変分エントロピー最適輸送(VarEOT)を提案する。 VarEOTは、補助正の正規化子上のトラクタブルな一般化として、log-partition $log mathbbE[exp(cdot)$の正確な変分再構成に基づいている。合成データと画像と画像の変換に関する実験は、競争力のあるか、あるいはより良い翻訳品質を示す。
論文参考訳（メタデータ） (2026-02-02T15:48:44Z)
Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization [16.627496870394456]
T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。以上の結果から,T'yr-the-Prunerは高密度モデルの性能の97%を保ちながら,最先端構造解析を実現していることがわかった。
論文参考訳（メタデータ） (2025-03-12T11:52:49Z)
Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。 PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T13:30:29Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。 LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文参考訳（メタデータ） (2023-05-09T11:00:02Z)
Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法であるワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文参考訳（メタデータ） (2022-10-08T19:19:29Z)
Cooperative Distribution Alignment via JSD Upper Bound [7.071749623370137]
教師なし分布アライメントは、2つ以上のソース分布を共有整列分布にマッピングする変換を推定する。このタスクには、生成モデリング、教師なしドメイン適応、社会的に認識された学習など、多くの応用がある。我々は,従来のフローベースアプローチを,単一の非逆数フレームワークで統一し,一般化することを提案する。
論文参考訳（メタデータ） (2022-07-05T20:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。