論文の概要: Efficient Multi-modal Large Language Models via Progressive Consistency Distillation
- arxiv url: http://arxiv.org/abs/2510.00515v1
- Date: Wed, 01 Oct 2025 04:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.390999
- Title: Efficient Multi-modal Large Language Models via Progressive Consistency Distillation
- Title(参考訳): プログレッシブ一貫性蒸留によるマルチモーダル大言語モデル
- Authors: Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang,
- Abstract要約: 本稿では,進歩的学習フレームワークEPIC(Progressive Consistency Distillation)による効率的なMLLMの開発を提案する。
具体的には,トークン圧縮によって生じる特徴空間の摂動を,トークンワイド次元と層ワイド次元に沿って分解することにより,トークン一貫性蒸留と層一貫性蒸留を導入する。
提案フレームワークの優れた有効性,堅牢性,一般化能力を示す実験を行った。
- 参考スコア(独自算出の注目度): 44.92371378287654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tokens consume substantial computational resources in multi-modal large models (MLLMs), significantly compromising their efficiency. Recent works have attempted to improve efficiency by compressing visual tokens during training, either through modifications to model components or by introducing additional parameters. However, they often overlook the increased learning difficulty caused by such compression, as the model's parameter space struggles to quickly adapt to the substantial perturbations in the feature space induced by token compression. In this work, we propose to develop Efficient MLLMs via Progressive Consistency Distillation (EPIC), a progressive learning framework. Specifically, by decomposing the feature space perturbations introduced by token compression along the token-wise and layer-wise dimensions, we introduce token consistency distillation and layer consistency distillation, respectively, aiming to reduce the training difficulty by leveraging guidance from a teacher model and following a progressive learning trajectory. Extensive experiments demonstrate the superior effectiveness, robustness, and generalization capabilities of our proposed framework.
- Abstract(参考訳): 視覚トークンはMLLM(Multi-modal large model)においてかなりの計算資源を消費し、その効率を著しく向上させる。
最近の研究は、モデルコンポーネントの変更や追加パラメータの導入によって、トレーニング中に視覚トークンを圧縮することで効率を向上しようと試みている。
しかし、モデルのパラメータ空間はトークン圧縮によって引き起こされる特徴空間の実質的な摂動に迅速に適応するのに苦労するため、そのような圧縮によって生じる学習難しさの増大をしばしば見落としている。
本研究では,進歩的学習フレームワークEPIC(Progressive Consistency Distillation)による効率的なMLLMの開発を提案する。
具体的には,トークン圧縮によって引き起こされる特徴空間摂動を,トークンワイド次元と層ワイド次元に沿って分解することにより,トークン整合蒸留と層整合蒸留を導入する。
大規模な実験は,提案フレームワークの優れた有効性,堅牢性,一般化能力を示すものである。
関連論文リスト
- LeMoRe: Learn More Details for Lightweight Semantic Segmentation [48.81126061219231]
計算効率と表現の忠実さのバランスをとるために、明示的および暗黙的なモデリングを相乗化することによって効率的なパラダイムを導入する。
提案手法は、明確にモデル化されたビューと暗黙的に推論された中間表現とをうまく組み合わせ、グローバルな依存関係を効率的に取得する。
論文 参考訳(メタデータ) (2025-05-29T04:55:10Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - LFTR: Learning-Free Token Reduction for Multimodal Large Language Models [3.368594680297987]
MLLM(Multimodal Large Language Models)用に設計されたLFTR(Learning-free token reduction)手法を提案する。
視覚表現の冗長性に乗じて,MLLMの一般的な推論性能を維持しつつトークンを効果的に削減する。
その結果、LFTRは最大16倍の視覚トークンの削減を実現し、メインストリームの視覚質問応答ベンチマークの性能を維持したり、向上させることができた。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [20.688382669309096]
p-MoDは、モデル性能を維持しながら、トレーニングと推論のコストを大幅に削減する効率的なMLLMアーキテクチャである。
我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
論文 参考訳(メタデータ) (2024-12-05T18:58:03Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。