Fugu-MT 論文翻訳(概要): GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation

論文の概要: GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation

arxiv url: http://arxiv.org/abs/2405.03764v1
Date: Mon, 6 May 2024 18:02:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 18:14:30.678610
Title: GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation
Title（参考訳）: GOVERN: マルチ教師強化蒸留のための配向投票方式
Authors: Wenjie Zhou, Zhenxin Ding, Xiaodong Zhang, Haibo Shi, Junfeng Wang, Dawei Yin,
Abstract要約: 計算制約下で高い性能を維持するためには,知識蒸留を行うことが重要である。本稿では,この問題に対処するための新しいアルゴリズムGOVERNを提案する。 GOVERNはオフラインとオンラインの両方の実験で大幅に改善されている。
参考スコア（独自算出の注目度）: 18.54162454919606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained language models have become an integral component of question-answering systems, achieving remarkable performance. For practical deployment, it is critical to carry out knowledge distillation to preserve high performance under computational constraints. In this paper, we address a key question: given the importance of unsupervised distillation for student performance, how does one effectively ensemble knowledge from multiple teachers at this stage without the guidance of ground-truth labels? We propose a novel algorithm, GOVERN, to tackle this issue. GOVERN has demonstrated significant improvements in both offline and online experiments. The proposed algorithm has been successfully deployed in a real-world commercial question-answering system.
Abstract（参考訳）: 事前学習された言語モデルは質問応答システムの不可欠なコンポーネントとなり、優れた性能を実現している。実用化のためには, 計算制約下で高い性能を維持するため, 知識蒸留を行うことが重要である。本稿では,学生演奏における教師なし蒸留の重要性を考えると,現段階の複数の教師の知識を,地味ラベルの指導なしに効果的に収集する方法について述べる。本稿では,この問題に対処するための新しいアルゴリズムGOVERNを提案する。 GOVERNはオフラインとオンラインの両方の実験で大幅に改善されている。提案アルゴリズムは,実店舗の質問応答システムに実装されている。

関連論文リスト

AdaSwitch: Adaptive Switching Generation for Knowledge Distillation [58.647880811071495]
スモール言語モデル(SLM)は、厳密な待ち時間と計算制約のあるアプリケーションには不可欠である。トークンレベルでのオン・ポリティクスとオフ・ポリティクス・ジェネレーションを組み合わせた新しいアプローチであるAdaSwitchを提案する。 AdaSwitchは一貫して精度を向上し、SLMを蒸留するための実用的で効果的な方法を提供し、追加のオーバーヘッドを許容する。
論文参考訳（メタデータ） (2025-10-09T06:38:37Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
UNDO: Understanding Distillation as Optimization [9.100811514331498]
UNDO: Understanding Distillation as Optimization frameworkを紹介します。各イテレーションは、生徒の学習不足を直接対象とし、教師に調整された強化された合理性を提供する動機を与える。様々な数学的・常識的推論タスクに関する実証的な評価は、我々の反復蒸留法UNDOが標準の1段階蒸留法を大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-04-03T12:18:51Z)
Efficient Verified Machine Unlearning For Distillation [6.363158395541767]
PURGE(Partitioned Unlearning with Retraining Guarantee for Ensembles)は、未学習と蒸留を統合した新しいフレームワークである。理論的解析,未学習プロセスにおける重要なスピードアップの定量化,および複数のデータセットに対する実証的検証を行う。
論文参考訳（メタデータ） (2025-03-28T15:38:07Z)
Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。 GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-10-05T12:29:51Z)
Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。 Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文参考訳（メタデータ） (2024-09-30T16:07:34Z)
ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。 CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文参考訳（メタデータ） (2024-04-15T15:54:30Z)
TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-02T02:29:41Z)
BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文参考訳（メタデータ） (2023-12-26T08:14:46Z)
Active Teacher for Semi-Supervised Object Detection [80.10937030195228]
半教師対象検出(SSOD)のための能動教師と呼ばれる新しいアルゴリズムを提案する。 Active Teacherは、教師/学生のフレームワークを反復的なバージョンに拡張し、ラベルセットを部分的に段階的に拡張し、ラベルなし例の3つの重要な要素を評価する。この設計により、Active Teacherは、擬似ラベルの品質を改善しながら、限られたラベル情報の効果を最大化することができる。
論文参考訳（メタデータ） (2023-03-15T03:59:27Z)
Distantly-Supervised Named Entity Recognition with Adaptive Teacher Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文参考訳（メタデータ） (2022-12-13T12:14:09Z)
Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文参考訳（メタデータ） (2022-12-11T06:22:14Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文参考訳（メタデータ） (2021-12-17T11:56:56Z)
Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文参考訳（メタデータ） (2020-06-12T12:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。