論文の概要: Sparsity Forcing: Reinforcing Token Sparsity of MLLMs
- arxiv url: http://arxiv.org/abs/2504.18579v3
- Date: Mon, 29 Sep 2025 03:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.262836
- Title: Sparsity Forcing: Reinforcing Token Sparsity of MLLMs
- Title(参考訳): スポーシティ・フォース:MLLMのトーケン・スポーシティを補強する
- Authors: Feng Chen, Yefei He, Lequan Lin, Chenhui Gou, Jing Liu, Bohan Zhuang, Qi Wu,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)におけるトークンの分散性を,単純なRLベースのポストトレーニングフレームワークであるtextitSparsity Forcing を用いて明示的に強化する。
本手法では,複数ロールアウトを異なるトークン予算で実行し,効率(トーケン還元率)と性能(回答正当性)の両方を共同報酬として定式化することにより,効率・正確性トレードオフを探索する。
- 参考スコア(独自算出の注目度): 40.93786579652003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse attention mechanisms aim to reduce computational overhead with minimal accuracy loss by selectively processing salient tokens. Despite their effectiveness, most methods merely exploit a model's inherent sparsity and thus plateau at moderate budgets (about 50\% token reduction), with little headroom to push budget lower without hurting accuracy. Other approaches attempt to enforce sparsity through trainable sparse attention or sharpness-inducing regularizers, but these either fix rigid patterns that ignore input and layer dynamics, or optimize proxy objectives without direct control over token budgets. In this paper, we explicitly reinforce token sparsity in well-posed multimodal large language models (MLLMs) through a simple RL-based post-training framework named \textit{Sparsity Forcing}. Our method explores the efficiency-accuracy trade-off by running multiple rollouts with different token budgets, where both efficiency (token reduction ratio) and performance (answer correctness) are formulated as joint rewards. By contrasting rollouts within each group, the more efficient and correct answer is rewarded while less efficient or incorrect ones are penalized, thereby turning token saving into an end-to-end, inference-consistent optimization objective. Across thirteen image and video benchmarks, Sparsity Forcing raises token reduction ratio on Qwen2-VL/Qwen2.5-VL from 20\% to 75\% with minimal accuracy decline, significantly reducing long-context inference memory by up to 3$\times$ while speeding up decoding by up to 3.3$\times$.
- Abstract(参考訳): スパースアテンション機構は、サレントトークンを選択的に処理することで、最小限の精度損失で計算オーバーヘッドを削減することを目的としている。
有効性にもかかわらず、ほとんどの手法は単にモデル固有の疎外性を利用しており、したがって適度な予算(約50 %のトークン削減)で高調であり、正確さを損なうことなく予算を下げる方法はほとんどない。
他のアプローチでは、トレーニング可能なスパースアテンションやシャープネス誘導レギュレータを通じてスパーシティを強制しようとするが、これらは入力とレイヤのダイナミクスを無視する厳格なパターンを修正したり、トークン予算を直接コントロールせずにプロキシの目的を最適化する。
本稿では,MLLM(Multimodal Large Language Model)におけるトークンの分散性を,簡単なRLベースのポストトレーニングフレームワークであるtextit{Sparsity Forcing} を通じて明示的に強化する。
本手法では,複数ロールアウトを異なるトークン予算で実行し,効率(トーケン還元率)と性能(回答正当性)の両方を共同報酬として定式化することにより,効率・正確性トレードオフを探索する。
各グループ内のロールアウトとは対照的に、より効率的で正しい解答が報奨され、効率が悪く、不正な解答が罰せられ、トークンセーブをエンドツーエンドの推論一貫性のある最適化目的に転換する。
13のイメージとビデオのベンチマークで、Sparsity ForcingはQwen2-VL/Qwen2.5-VLのトークン削減率を20\%から75\%に引き上げ、最小の精度で低下させ、長文推論メモリを最大3$\times$まで下げ、デコーディングを最大3.3$\times$に高速化する。
関連論文リスト
- ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning [15.933542902352604]
本研究では,高速刈り出し性能と高速刈り出し速度を同時に達成する効率的かつ効率的な刈り出し法を提案する。
実験結果から, 本手法は, パープレキシティの最大18%, プルーニング時間の最大63%低減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T05:25:16Z) - The Overthinker's DIET: Cutting Token Calories with DIfficulty-AwarE Training [63.99981166397423]
最近の大規模言語モデル(LLM)は印象的な推論を示すが、多くの場合、過度に長い応答を発生させ、効率を損なう。
そこで我々は,これらの「トーケンカロリー」を体系的に削減するフレームワークであるDIETを紹介した。
DIETはトークンペナルティ強度と条件付け対象長さを推定タスクの難易度に応じて調整することによりトークン圧縮戦略を動的に適用する。
論文 参考訳(メタデータ) (2025-05-25T16:24:12Z) - COUNTDOWN: Contextually Sparse Activation Filtering Out Unnecessary Weights in Down Projection [3.647905567437244]
スパースアクティベーションメソッドは、推論中に非必須パラメータを選択的に非活性化する。
間接係数を利用するM-COUNTDOWNと、線形結合の直接係数を利用するD-COUNTDOWNの2つの方法を提案する。
我々のカーネル実装は、これらの理論的な成果を実質的な実世界の加速に効果的に実現している。
論文 参考訳(メタデータ) (2025-05-23T10:10:22Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Leveraging the true depth of LLMs [46.81174316936993]
大規模言語モデル(LLM)は、高い計算要求を犠牲にして素晴らしい能力を示す。
近年の研究では、LCMの中間層を相当な精度の損失なく除去または再配列できることが示されている。
本稿では,連続層を並列に評価したペアにグループ化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-05T00:26:27Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
本稿では,アクティベーションスペーシフィケーション問題を修正し,アクティベーションスペーシビリティとモデル性能の関係を明確に把握する。
本稿では,Channel-wise thrEsholding と Selective Sparsification による一般的な活性化スカラー化手法であるCHESSを提案する。
実験の結果,提案したCHESSは,既存の手法よりも少ないパラメータを活性化しながら,8つの下流タスクよりも低い性能劣化を実現することがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Two Counterexamples to Tokenization and the Noiseless Channel [24.127593302335164]
トークン化およびノイズレスチャネルでは、トークン化剤を評価するための本質的なメカニズムとしてR'enyi効率が提案される。
有用ではあるが、この計量の予測力は完全ではなく、著者らはR'enyi効率だけでは達成できない優れたトークン化スキームのさらなる性質があることを指摘している。
下流モデルの性能を低下させながらR'enyi効率を任意に向上させるBPEトークン化の2つの変種について述べる。
論文 参考訳(メタデータ) (2024-02-22T15:03:25Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - PoseRAC: Pose Saliency Transformer for Repetitive Action Counting [56.34379680390869]
冗長なフレームではなく,2つのサレントポーズのみを用いて,各アクションを効率よく表現するPose Saliency Representationを導入する。
また,この表現に基づいて,最先端のパフォーマンスを実現するPoseRACについても紹介する。
当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。
論文 参考訳(メタデータ) (2023-03-15T08:51:17Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。