論文の概要: Module-wise Adaptive Distillation for Multimodality Foundation Models
- arxiv url: http://arxiv.org/abs/2310.04550v1
- Date: Fri, 6 Oct 2023 19:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:51:08.082117
- Title: Module-wise Adaptive Distillation for Multimodality Foundation Models
- Title(参考訳): 多モード基礎モデルに対するモジュールワイド適応蒸留
- Authors: Chen Liang, Jiahui Yu, Ming-Hsuan Yang, Matthew Brown, Yin Cui, Tuo
Zhao, Boqing Gong, Tianyi Zhou
- Abstract要約: マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
- 参考スコア(独自算出の注目度): 125.42414892566843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained multimodal foundation models have demonstrated remarkable
generalizability but pose challenges for deployment due to their large sizes.
One effective approach to reducing their sizes is layerwise distillation,
wherein small student models are trained to match the hidden representations of
large teacher models at each layer. Motivated by our observation that certain
architecture components, referred to as modules, contribute more significantly
to the student's performance than others, we propose to track the contributions
of individual modules by recording the loss decrement after distillation each
module and choose the module with a greater contribution to distill more
frequently. Such an approach can be naturally formulated as a multi-armed
bandit (MAB) problem, where modules and loss decrements are considered as arms
and rewards, respectively. We then develop a modified-Thompson sampling
algorithm named OPTIMA to address the nonstationarity of module contributions
resulting from model updating. Specifically, we leverage the observed
contributions in recent history to estimate the changing contribution of each
module and select modules based on these estimations to maximize the cumulative
contribution. We evaluate the effectiveness of OPTIMA through distillation
experiments on various multimodal understanding and image captioning tasks,
using the CoCa-Large model (Yu et al., 2022) as the teacher model.
- Abstract(参考訳): 事前訓練されたマルチモーダル基礎モデルは、目覚ましい一般化性を示しているが、その大きさが大きいため、展開に挑戦する。
サイズを減らすための効果的なアプローチの一つは、各層における大きな教師モデルの隠れた表現にマッチするように、小さな学生モデルを訓練する層別蒸留である。
モジュールと呼ばれる特定のアーキテクチャコンポーネントが,学生のパフォーマンスに有意に寄与する,という観測に動機づけられ,各モジュールの蒸留後の損失減少を記録し,より頻繁に蒸留に寄与するモジュールを選択することにより,個々のモジュールの寄与を追跡することを提案する。
このようなアプローチは、モジュールと損失の減少をそれぞれ武器と報酬と見なすマルチアーム・バンディット(MAB)問題として自然に定式化することができる。
次に,モデル更新によるモジュール貢献の非定常性に対処するために,修正トンプソンサンプリングアルゴリズムoptimaを開発した。
具体的には,近年の観測された貢献を利用して,各モジュールの貢献の変化を推定し,それらの推定に基づいてモジュールを選択し,累積貢献を最大化する。
我々は,CoCa-Largeモデル(Yu et al., 2022)を教師モデルとして,様々なマルチモーダル理解および画像キャプションタスクにおける蒸留実験によるOPTIMAの有効性を評価する。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.940242741914748]
一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。
これにより、未知の変数を個別に解くことができ、ユニークな解を見つけることができる。
本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-23T15:30:13Z) - SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - R-Cut: Enhancing Explainability in Vision Transformers with Relationship
Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。
Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。
我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-18T08:03:51Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Neural Network Module Decomposition and Recomposition [35.21448933547118]
本稿では,機能の観点から,ディープニューラルネットワーク(DNN)を小さなモジュールに分解するモジュール化手法を提案する。
提案手法は,DNNを高い圧縮比と高精度で分解・分解できることを実証する。
論文 参考訳(メタデータ) (2021-12-25T08:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。