Fugu-MT 論文翻訳(概要): Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

論文の概要: Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

arxiv url: http://arxiv.org/abs/2411.17686v1
Date: Tue, 26 Nov 2024 18:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:51.1851
Title: Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration
Title（参考訳）: MLLMにおけるトークン削減の再考 : 学習自由加速のための統一パラダイムを目指して
Authors: Yuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang,
Abstract要約: 本研究は,無訓練トークン還元研究の現況を再考する。トークン還元を3つの異なる段階に分解する「フィルタ相関圧縮」パラダイムを提案する。 10のベンチマークでの実験結果から,本手法は最大82.4%のFLOP削減が可能であることが示唆された。
参考スコア（独自算出の注目度）: 31.50005609235654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To accelerate the inference of heavy Multimodal Large Language Models (MLLMs), this study rethinks the current landscape of training-free token reduction research. We regret to find that the critical components of existing methods are tightly intertwined, with their interconnections and effects remaining unclear for comparison, transfer, and expansion. Therefore, we propose a unified ''filter-correlate-compress'' paradigm that decomposes the token reduction into three distinct stages within a pipeline, maintaining consistent design objectives and elements while allowing for unique implementations. We additionally demystify the popular works and subsume them into our paradigm to showcase its universality. Finally, we offer a suite of methods grounded in the paradigm, striking a balance between speed and accuracy throughout different phases of the inference. Experimental results across 10 benchmarks indicate that our methods can achieve up to an 82.4% reduction in FLOPs with a minimal impact on performance, simultaneously surpassing state-of-the-art training-free methods. Our project page is at https://ficoco-accelerate.github.io/.
Abstract（参考訳）: 本研究は,MLLM(ヘビーマルチモーダル大規模言語モデル)の推論を高速化するために,学習自由トークン削減研究の現在の状況を再考する。既存の手法の臨界成分が密接に絡み合っており、その相互接続や効果が比較、転送、拡張に不明瞭であることに後悔する。そこで我々は,一貫した設計目標と要素を維持しつつ,一貫した実装を実現しつつ,トークンの削減をパイプライン内の3つの異なるステージに分解する「フィルタ相関圧縮」パラダイムを提案する。さらに、ポピュラーな作品をデミスティフィケーションし、その普遍性を示すために、私たちのパラダイムにそれらをサブスクライブします。最後に、このパラダイムに根ざした一連の手法を提供し、推論の異なるフェーズで速度と精度のバランスをとる。 10ベンチマークでの実験結果から, FLOPの最大82.4%の削減が可能であり, 性能への影響は最小限であり, 同時に最先端のトレーニングフリー手法を超越していることがわかった。私たちのプロジェクトページはhttps://ficoco-accelerate.github.io/です。

関連論文リスト

Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。 LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。 Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文参考訳（メタデータ） (2025-01-31T11:09:16Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文参考訳（メタデータ） (2024-12-05T18:58:03Z)
Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。近年、拡散モデルはGANの非敵対的な代替品として出現している。提案手法は, 様々な連続制御問題に対して, GANスタイルの模倣学習ベースラインより優れていることを示す。
論文参考訳（メタデータ） (2024-10-17T17:59:25Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models [32.33892531885448]
MLLM(Multimodal large language model)は、視覚的タスクにまたがる強力なパフォーマンスを示す。しかし、それらの効率は、マルチモーダル入力で長いコンテキストを処理することによる計算とメモリの要求によって妨げられている。 PAR(Prompt-Aware Token Reduction)は,モデルの性能を損なうことなく,視覚トークンを効率よく削減する新しい,プラグアンドプレイ方式である。
論文参考訳（メタデータ） (2024-10-09T07:13:22Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-01T03:27:08Z)
BECLR: Batch Enhanced Contrastive Few-Shot Learning [1.450405446885067]
教師なしの少数ショット学習は、トレーニング時にアノテーションへの依存を捨てることで、このギャップを埋めようとしている。本稿では,高度に分離可能な潜在表現空間を促進するために,新しい動的クラスタ mEmory (DyCE) モジュールを提案する。そして、数ショットの推論段階でサンプルバイアスの問題に取り組みます。
論文参考訳（メタデータ） (2024-02-04T10:52:43Z)
Streaming LifeLong Learning With Any-Time Inference [36.3326483579511]
本稿では,1回の入力サンプルが各タイムステップ,シングルパス,クラスインクリメンタル,任意のタイミングで評価対象に到達する,新たな生涯学習手法を提案する。また,スナップショット自己蒸留方式の暗黙正則化器を提案する。我々の経験的評価と改善は,提案手法が先行研究を大きなマージンで上回ることを示すものである。
論文参考訳（メタデータ） (2023-01-27T18:09:19Z)
Isolation and Impartial Aggregation: A Paradigm of Incremental Learning without Interference [61.11137714507445]
本稿では,インクリメンタルラーニングの段階におけるパフォーマンスの不均衡について論じる。ステージアイソレーションに基づくインクリメンタルラーニングフレームワークを提案する。提案手法を4つの大規模ベンチマークで評価した。
論文参考訳（メタデータ） (2022-11-29T06:57:48Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文参考訳（メタデータ） (2021-01-20T11:48:12Z)
A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。 cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文参考訳（メタデータ） (2020-09-29T07:08:35Z)
FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。 FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2020-08-06T08:28:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。