論文の概要: ZipR1: Reinforcing Token Sparsity in MLLMs
- arxiv url: http://arxiv.org/abs/2504.18579v1
- Date: Wed, 23 Apr 2025 01:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.886398
- Title: ZipR1: Reinforcing Token Sparsity in MLLMs
- Title(参考訳): ZipR1:MLLMにおけるToken Sparsityの強化
- Authors: Feng Chen, Yefei He, Lequan Lin, Jing Liu, Bohan Zhuang, Qi Wu,
- Abstract要約: 本稿では,トークン削減率を効率報酬として扱い,解答精度を性能報酬として扱う,簡単なRLベースのポストトレーニング手法であるtextbfZipR1を提案する。
実験の結果、ZipR1は13の画像とビデオのベンチマークにおいて、Qwen2/2.5-VLのトークン比を80%から25%に削減できることがわかった。
- 参考スコア(独自算出の注目度): 25.92720050123066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse attention mechanisms aim to reduce computational overhead by selectively processing a subset of salient tokens while preserving model performance. Despite the effectiveness of such designs, how to actively encourage token sparsity of well-posed MLLMs remains under-explored, which fundamentally limits the achievable acceleration effect during inference. In this paper, we propose a simple RL-based post-training method named \textbf{ZipR1} that treats the token reduction ratio as the efficiency reward and answer accuracy as the performance reward. In this way, our method can jointly alleviate the computation and memory bottlenecks via directly optimizing the inference-consistent efficiency-performance tradeoff. Experimental results demonstrate that ZipR1 can reduce the token ratio of Qwen2/2.5-VL from 80\% to 25\% with a minimal accuracy reduction on 13 image and video benchmarks.
- Abstract(参考訳): スパースアテンション機構は、モデル性能を保ちながら有意なトークンのサブセットを選択的に処理することで、計算オーバーヘッドを低減することを目的としている。
このような設計の有効性にもかかわらず、適切に配置されたMLLMのトークン間隔を積極的に促進する方法は未探索のままであり、推論中の達成可能な加速効果を根本的に制限する。
本稿では,トークン低減率を効率報酬として扱い,解答精度を性能報酬として扱う,簡単なRLベースのポストトレーニング手法である「textbf{ZipR1}」を提案する。
このようにして、推論に一貫性のある効率と性能のトレードオフを直接最適化することで、計算とメモリボトルネックを共同で緩和することができる。
実験結果から,ZipR1はQwen2/2.5-VLのトークン比を80\%から25\%に削減できることがわかった。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
本稿では,アクティベーションスペーシフィケーション問題を修正し,アクティベーションスペーシビリティとモデル性能の関係を明確に把握する。
本稿では,Channel-wise thrEsholding と Selective Sparsification による一般的な活性化スカラー化手法であるCHESSを提案する。
実験の結果,提案したCHESSは,既存の手法よりも少ないパラメータを活性化しながら,8つの下流タスクよりも低い性能劣化を実現することがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Two Counterexamples to Tokenization and the Noiseless Channel [24.127593302335164]
トークン化およびノイズレスチャネルでは、トークン化剤を評価するための本質的なメカニズムとしてR'enyi効率が提案される。
有用ではあるが、この計量の予測力は完全ではなく、著者らはR'enyi効率だけでは達成できない優れたトークン化スキームのさらなる性質があることを指摘している。
下流モデルの性能を低下させながらR'enyi効率を任意に向上させるBPEトークン化の2つの変種について述べる。
論文 参考訳(メタデータ) (2024-02-22T15:03:25Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - PoseRAC: Pose Saliency Transformer for Repetitive Action Counting [56.34379680390869]
冗長なフレームではなく,2つのサレントポーズのみを用いて,各アクションを効率よく表現するPose Saliency Representationを導入する。
また,この表現に基づいて,最先端のパフォーマンスを実現するPoseRACについても紹介する。
当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。
論文 参考訳(メタデータ) (2023-03-15T08:51:17Z) - Fine-tuning Strategies for Faster Inference using Speech Self-Supervised
Models: A Comparative Study [25.58608455210458]
自己教師付き学習(SSL)は、低リソース環境での音声認識(ASR)の性能を大幅に向上させた。
この記事では、SSLエンコーダに必要な計算量を削減するために、微調整中にデプロイされる可能性のあるさまざまなアプローチについて検討する。
論文 参考訳(メタデータ) (2023-03-12T19:52:34Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。