論文の概要: Wisdom of Committee: Distilling from Foundation Model to
SpecializedApplication Model
- arxiv url: http://arxiv.org/abs/2402.14035v1
- Date: Wed, 21 Feb 2024 04:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 17:31:37.828225
- Title: Wisdom of Committee: Distilling from Foundation Model to
SpecializedApplication Model
- Title(参考訳): 委員会の知恵:基礎モデルから特殊応用モデルへの蒸留
- Authors: Zichang Liu, Qingyun Liu, Yuening Li, Liang Liu, Anshumali
Shrivastava, Shuchao Bi, Lichan Hong, Ed H. Chi, Zhe Zhao
- Abstract要約: 我々は,基礎モデル教員と補完教師の両方からなる教育委員会を創設することを提案する。
補完的な教師は、基礎モデルと専門的な応用モデルの間のギャップを埋めることを目的として、学生と同様のモデル特性を持っている。
本評価は,補完的な教員の増員が学生のパフォーマンスを向上させることを示すものである。
- 参考スコア(独自算出の注目度): 45.16459096017114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in foundation models have yielded impressive performance
across a wide range of tasks. Meanwhile, for specific applications,
practitioners have been developing specialized application models. To enjoy the
benefits of both kinds of models, one natural path is to transfer the knowledge
in foundation models into specialized application models, which are generally
more efficient for serving. Techniques from knowledge distillation may be
applied here, where the application model learns to mimic the foundation model.
However, specialized application models and foundation models have substantial
gaps in capacity, employing distinct architectures, using different input
features from different modalities, and being optimized on different
distributions. These differences in model characteristics lead to significant
challenges for distillation methods. In this work, we propose creating a
teaching committee comprising both foundation model teachers and complementary
teachers. Complementary teachers possess model characteristics akin to the
student's, aiming to bridge the gap between the foundation model and
specialized application models for a smoother knowledge transfer. Further, to
accommodate the dissimilarity among the teachers in the committee, we introduce
DiverseDistill, which allows the student to understand the expertise of each
teacher and extract task knowledge. Our evaluations demonstrate that adding
complementary teachers enhances student performance. Finally, DiverseDistill
consistently outperforms baseline distillation methods, regardless of the
teacher choices, resulting in significantly improved student performance.
- Abstract(参考訳): 基礎モデルの最近の進歩は、幅広いタスクで印象的なパフォーマンスをもたらしている。
一方、特定のアプリケーションでは、実践者は特別なアプリケーションモデルを開発しています。
両方のモデルの利点を享受するために、基礎モデルの知識を特殊なアプリケーションモデルに移すことが自然な道の1つだ。
ここでは知識蒸留の技術が適用され、そこではアプリケーションモデルが基礎モデルの模倣を学ぶ。
しかし、特殊なアプリケーションモデルと基礎モデルにはキャパシティにかなりのギャップがあり、異なるアーキテクチャを採用し、異なるモードから異なる入力機能を使用し、異なる分散に最適化されている。
これらのモデル特性の違いは蒸留法に大きな課題をもたらす。
本研究では,基礎モデル教員と補足教員の両方からなる教育委員会の創設を提案する。
補足的な教師は、基礎モデルと専門アプリケーションモデルとのギャップを埋めることを目的として、生徒に類似したモデル特性を持っている。
さらに,委員会における教師間の相違に対応するために,学生が各教師の専門知識を理解し,課題知識を抽出できる「DiverseDistill」を紹介した。
本評価は,補完的な教員の追加が学生のパフォーマンスを向上させることを示すものである。
最後に、DiverseDistillは教師の選択にかかわらず、基礎的な蒸留法を一貫して上回り、学生のパフォーマンスが大幅に向上する。
関連論文リスト
- A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning [136.89318317245855]
MoErgingは、専門家のモデルをリサイクルして、パフォーマンスや一般化を改善した集約システムを構築することを目的としている。
MoErgingメソッドの重要なコンポーネントは、特定の入力やアプリケーションに使用する専門家モデルを決定するルータの作成である。
このサーベイには、キーデザインの選択をカタログ化し、各手法に適した適用方法を明確にするための新しい分類が含まれている。
論文 参考訳(メタデータ) (2024-08-13T17:49:00Z) - Aligning Teacher with Student Preferences for Tailored Training Data Generation [40.85451525264779]
StudenT PreferencEs を用いた Aligning TeacheR という ARTE を提案する。
具体的には,教師モデルから質問文と合理性を抽出し,これらの質問文と合理性に関する学生の嗜好を収集する。
最後に,教師モデルと協調する第1ステップを繰り返すことで,対象課題における生徒モデルに適した訓練例を提示する。
論文 参考訳(メタデータ) (2024-06-27T14:51:17Z) - Low-Rank Knowledge Decomposition for Medical Foundation Models [37.52464627899668]
我々は、特定の医療課題におけるパフォーマンスを改善するために、「知識分解」と呼ばれる新しい視点を開発する。
Low-Rank Knowledge Decomposition (LoRKD)は、低ランクの専門家モジュールと効率的な知識分離畳み込みを取り入れている。
実験により、分解されたモデルは、元の基礎モデルを超え、性能と伝達性の観点からも良好に機能することが示された。
論文 参考訳(メタデータ) (2024-04-26T06:30:47Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Knowledge Distillation with the Reused Teacher Classifier [31.22117343316628]
簡単な知識蒸留技術では,教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
提案手法は, プロジェクタの追加による圧縮率の最小コストで, 最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-26T06:28:46Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。
本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-03T19:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。