論文の概要: Module-wise Adaptive Distillation for Multimodality Foundation Models
- arxiv url: http://arxiv.org/abs/2310.04550v1
- Date: Fri, 6 Oct 2023 19:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:51:08.082117
- Title: Module-wise Adaptive Distillation for Multimodality Foundation Models
- Title(参考訳): 多モード基礎モデルに対するモジュールワイド適応蒸留
- Authors: Chen Liang, Jiahui Yu, Ming-Hsuan Yang, Matthew Brown, Yin Cui, Tuo
Zhao, Boqing Gong, Tianyi Zhou
- Abstract要約: マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
- 参考スコア(独自算出の注目度): 125.42414892566843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained multimodal foundation models have demonstrated remarkable
generalizability but pose challenges for deployment due to their large sizes.
One effective approach to reducing their sizes is layerwise distillation,
wherein small student models are trained to match the hidden representations of
large teacher models at each layer. Motivated by our observation that certain
architecture components, referred to as modules, contribute more significantly
to the student's performance than others, we propose to track the contributions
of individual modules by recording the loss decrement after distillation each
module and choose the module with a greater contribution to distill more
frequently. Such an approach can be naturally formulated as a multi-armed
bandit (MAB) problem, where modules and loss decrements are considered as arms
and rewards, respectively. We then develop a modified-Thompson sampling
algorithm named OPTIMA to address the nonstationarity of module contributions
resulting from model updating. Specifically, we leverage the observed
contributions in recent history to estimate the changing contribution of each
module and select modules based on these estimations to maximize the cumulative
contribution. We evaluate the effectiveness of OPTIMA through distillation
experiments on various multimodal understanding and image captioning tasks,
using the CoCa-Large model (Yu et al., 2022) as the teacher model.
- Abstract(参考訳): 事前訓練されたマルチモーダル基礎モデルは、目覚ましい一般化性を示しているが、その大きさが大きいため、展開に挑戦する。
サイズを減らすための効果的なアプローチの一つは、各層における大きな教師モデルの隠れた表現にマッチするように、小さな学生モデルを訓練する層別蒸留である。
モジュールと呼ばれる特定のアーキテクチャコンポーネントが,学生のパフォーマンスに有意に寄与する,という観測に動機づけられ,各モジュールの蒸留後の損失減少を記録し,より頻繁に蒸留に寄与するモジュールを選択することにより,個々のモジュールの寄与を追跡することを提案する。
このようなアプローチは、モジュールと損失の減少をそれぞれ武器と報酬と見なすマルチアーム・バンディット(MAB)問題として自然に定式化することができる。
次に,モデル更新によるモジュール貢献の非定常性に対処するために,修正トンプソンサンプリングアルゴリズムoptimaを開発した。
具体的には,近年の観測された貢献を利用して,各モジュールの貢献の変化を推定し,それらの推定に基づいてモジュールを選択し,累積貢献を最大化する。
我々は,CoCa-Largeモデル(Yu et al., 2022)を教師モデルとして,様々なマルチモーダル理解および画像キャプションタスクにおける蒸留実験によるOPTIMAの有効性を評価する。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - R-Cut: Enhancing Explainability in Vision Transformers with Relationship
Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。
Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。
我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-18T08:03:51Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Neural Network Module Decomposition and Recomposition [35.21448933547118]
本稿では,機能の観点から,ディープニューラルネットワーク(DNN)を小さなモジュールに分解するモジュール化手法を提案する。
提案手法は,DNNを高い圧縮比と高精度で分解・分解できることを実証する。
論文 参考訳(メタデータ) (2021-12-25T08:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。