論文の概要: GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation
- arxiv url: http://arxiv.org/abs/2405.03764v2
- Date: Tue, 15 Oct 2024 16:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:57:48.993947
- Title: GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation
- Title(参考訳): GOVERN: マルチ教師強化蒸留のための配向投票方式
- Authors: Wenjie Zhou, Zhenxin Ding, Xiaodong Zhang, Haibo Shi, Junfeng Wang, Dawei Yin,
- Abstract要約: 本稿では,この問題に対処するための新しいアルゴリズムGOVERNを提案する。
GOVERNはオフラインとオンラインの両方の実験で大幅に改善されている。
実験の結果、GOVERNは99.5%のパフォーマンスを達成するために、アンサンブル法の推論予算の1%しか必要としないことがわかった。
- 参考スコア(独自算出の注目度): 18.54162454919606
- License:
- Abstract: Pre-trained language models have become an integral component of question-answering systems, achieving remarkable performance. However, for practical deployment, it is crucial to perform knowledge distillation to maintain high performance while operating under computational constraints. In this paper, we address a key question: given the importance of unsupervised distillation for student model performance, how can knowledge from multiple teacher models be effectively ensemble during this stage without the guidance of labels? We propose a novel algorithm, GOVERN, to tackle this issue. GOVERN has demonstrated significant improvements in both offline and online experiments, enabling the student model to achieve results comparable to that of teacher ensembles. Our experiments show that GOVERN remarkably requires a mere 1\% of the ensemble method's inference budget to achieve 99.5\% of performance. The proposed algorithm has been successfully deployed in a real-world commercial question-answering system, demonstrating its real-world applicability.
- Abstract(参考訳): 事前学習された言語モデルは質問応答システムの不可欠なコンポーネントとなり、優れた性能を実現している。
しかし, 実用化には, 計算制約下での運転において, 高い性能を維持するために, 知識蒸留を行うことが不可欠である。
本稿では,学生モデルにおける教師なし蒸留の重要性を考えると,複数の教師モデルからの知識をラベルの指導なしに効果的に融合させるにはどうすればよいのか,という課題に対処する。
本稿では,この問題に対処するための新しいアルゴリズムGOVERNを提案する。
GOVERNはオフラインとオンラインの両方の実験で大幅に改善され、生徒モデルは教師のアンサンブルに匹敵する結果が得られるようになった。
実験の結果,GOVERN は 99.5 % の性能を達成するために,アンサンブル手法の推論予算の 1 % しか必要としないことがわかった。
提案アルゴリズムは実世界の有償質問応答システムに実装され,実世界の適用性を示す。
関連論文リスト
- Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Active Teacher for Semi-Supervised Object Detection [80.10937030195228]
半教師対象検出(SSOD)のための能動教師と呼ばれる新しいアルゴリズムを提案する。
Active Teacherは、教師/学生のフレームワークを反復的なバージョンに拡張し、ラベルセットを部分的に段階的に拡張し、ラベルなし例の3つの重要な要素を評価する。
この設計により、Active Teacherは、擬似ラベルの品質を改善しながら、限られたラベル情報の効果を最大化することができる。
論文 参考訳(メタデータ) (2023-03-15T03:59:27Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。