論文の概要: ReMem: Mutual Information-Aware Fine-tuning of Pretrained Vision Transformers for Effective Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2506.23041v1
- Date: Sun, 29 Jun 2025 00:25:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.683954
- Title: ReMem: Mutual Information-Aware Fine-tuning of Pretrained Vision Transformers for Effective Knowledge Distillation
- Title(参考訳): ReMem: 有能な知識蒸留のための事前学習型視覚変換器の相互情報を考慮した微調整
- Authors: Chengyu Dong, Huan Gui, Noveen Sachdeva, Long Jin, Ke Yin, Jingbo Shang, Lichan Hong, Ed H. Chi, Zhe Zhao,
- Abstract要約: 事前訓練された視覚表現モデルからの知識蒸留は、小さなタスク固有の生産モデルを改善する効果的なアプローチを提供する。
しかし、そのような知識伝達の有効性は、大規模に事前訓練された強いモデルから蒸留する場合に著しく低下する。
相互情報と蒸留の有効性の関連性から,我々は微調整中に相互情報認識最適化を採用することを提案する。
- 参考スコア(独自算出の注目度): 55.55242848676581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation from pretrained visual representation models offers an effective approach to improve small, task-specific production models. However, the effectiveness of such knowledge transfer drops significantly when distilling from strong models that are pretrained in a large scale. In this paper, we address this challenge for pretrained Vision Transformers (ViTs) by exploring methods to fine-tune them for more effective knowledge transfer. Motivated by the connection between mutual information and distillation effectiveness, we propose to employ mutual information-aware optimization during finetuning. For small or highly-imbalanced downstream datasets where such optimization becomes less effective, we introduce a simple yet effective heuristic of reweighting MLP blocks. This approach is inspired by our observation that top MLP blocks are primarily responsible for mutual information loss. Our method enables small student models to benefit from those pretrained models among the strongest.
- Abstract(参考訳): 事前訓練された視覚表現モデルからの知識蒸留は、小さなタスク固有の生産モデルを改善する効果的なアプローチを提供する。
しかし、そのような知識伝達の有効性は、大規模に事前訓練された強いモデルから蒸留する場合に著しく低下する。
本稿では、より効果的な知識伝達のための微調整方法を模索し、事前訓練された視覚変換器(ViT)の課題に対処する。
相互情報と蒸留の有効性の関連性から,我々は微調整中に相互情報認識最適化を採用することを提案する。
このような最適化がより効果的になるような、小規模または高度に不均衡な下流データセットに対しては、MPPブロックの再重み付けの単純かつ効果的なヒューリスティックを導入する。
このアプローチは、トップMLPブロックが主に相互情報損失の原因である、という私たちの観察に着想を得たものです。
提案手法は,小学生が最強の学生の中から事前学習したモデルの恩恵を受けることを可能にする。
関連論文リスト
- Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Knowledge Distillation for Road Detection based on cross-model Semi-Supervised Learning [17.690698736544626]
本稿では,知識蒸留と半教師付き学習手法を組み合わせた統合的アプローチを提案する。
このハイブリッドアプローチは、大規模モデルのロバストな機能を活用して、大規模な未ラベルデータを効果的に活用する。
半教師付き学習に基づく知識蒸留(SSLKD)アプローチは,学生モデルの性能向上を示す。
論文 参考訳(メタデータ) (2024-02-07T22:50:47Z) - Text Representation Distillation via Information Bottleneck Principle [22.63996326177594]
IBKDと呼ばれる新しい知識蒸留法を提案する。
本研究の目的は,教師モデルと学生モデルの最終表現間の相互情報を最大化しつつ,学生モデルの表現と入力データとの相互情報を同時に低減することにある。
テキスト表現の2つの主要なダウンストリーム応用に関する実証的研究により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-09T16:04:17Z) - Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Guiding Attention for Self-Supervised Learning with Transformers [24.785500242464646]
双方向変換器を用いた効率的な自己教師型学習を実現する手法を提案する。
我々のアプローチは、訓練されたモデルにおける自己注意パターンが非言語的規則性の大部分を含んでいることを示す最近の研究によって動機付けられている。
論文 参考訳(メタデータ) (2020-10-06T00:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。