Fugu-MT 論文翻訳(概要): Self Regulated Learning Mechanism for Data Efficient Knowledge Distillation

論文の概要: Self Regulated Learning Mechanism for Data Efficient Knowledge Distillation

arxiv url: http://arxiv.org/abs/2102.07125v1
Date: Sun, 14 Feb 2021 10:43:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 18:00:30.941132
Title: Self Regulated Learning Mechanism for Data Efficient Knowledge Distillation
Title（参考訳）: データ効率的な知識蒸留のための自己制御学習機構
Authors: Sourav Mishra and Suresh Sundaram
Abstract要約: 教師モデルから学生モデルへ知識を移行するための新しいデータ効率の高いアプローチを提示する。教師モデルは、訓練に適切なサンプルを選択し、その過程におけるその重要性を特定するために自己規制を用いる。蒸留中は、学生を監督するソフトターゲットと共に重要な情報を利用することができる。
参考スコア（独自算出の注目度）: 8.09591217280048
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing methods for distillation use the conventional training approach where all samples participate equally in the process and are thus highly inefficient in terms of data utilization. In this paper, a novel data-efficient approach to transfer the knowledge from a teacher model to a student model is presented. Here, the teacher model uses self-regulation to select appropriate samples for training and identifies their significance in the process. During distillation, the significance information can be used along with the soft-targets to supervise the students. Depending on the use of self-regulation and sample significance information in supervising the knowledge transfer process, three types of distillations are proposed - significance-based, regulated, and hybrid, respectively. Experiments on benchmark datasets show that the proposed methods achieve similar performance as other state-of-the-art methods for knowledge distillation while utilizing a significantly less number of samples.
Abstract（参考訳）: 既存の蒸留法は、すべてのサンプルがプロセスに等しく参加し、データ利用の面では極めて非効率な、従来のトレーニングアプローチを用いる。本稿では,教師モデルから生徒モデルへ知識を伝達するための,データ効率の新たなアプローチを提案する。ここで,教師モデルでは,学習に適切なサンプルの選択と,その過程における意義の特定に自己規制を用いる。蒸留中は、学生を監督するソフトターゲットと共に重要な情報を利用することができる。知識伝達過程を監督する上で, 自己規制とサンプル重要度情報を用いることにより, それぞれ有意義, 規制, ハイブリッドの3種類の蒸留法が提案されている。ベンチマークデータセットを用いた実験により,提案手法は知識蒸留における他の最先端手法と同等の性能を示し,サンプル数を大幅に減らした。

関連論文リスト

Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability [3.224880576815583]
大規模言語モデルの高い計算とストレージ要求は、リソース制約のある環境への展開を制限する。これまでの研究では, 学習データの生成と学生モデルの訓練のための蒸留法がいくつか導入されている。その関連性にも拘わらず, 現状蒸留法がモデル性能および説明可能性に与える影響については, 十分に検討されていない。
論文参考訳（メタデータ） (2025-04-22T17:32:48Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文参考訳（メタデータ） (2024-08-16T22:11:01Z)
The Staged Knowledge Distillation in Video Classification: Harmonizing Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文参考訳（メタデータ） (2023-07-11T12:10:42Z)
Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文参考訳（メタデータ） (2022-12-11T06:22:14Z)
Exploring Inconsistent Knowledge Distillation for Object Detection with Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文参考訳（メタデータ） (2022-09-20T16:36:28Z)
A Novel Self-Knowledge Distillation Approach with Siamese Representation Learning for Action Recognition [6.554259611868312]
自己知識蒸留は、学生のパフォーマンスを高めるために、重いネットワーク(教師)から小さなネットワーク(学生)への知識の効果的な伝達である。本稿では,シームズ表現学習による新しい自己知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-09-03T01:56:58Z)
Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文参考訳（メタデータ） (2022-08-11T05:08:55Z)
Conditional Generative Data-Free Knowledge Distillation based on Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。 CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文参考訳（メタデータ） (2021-12-31T09:23:40Z)
Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文参考訳（メタデータ） (2021-08-26T14:01:04Z)
Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2021-01-20T13:07:39Z)
Deep Semi-supervised Knowledge Distillation for Overlapping Cervical Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文参考訳（メタデータ） (2020-07-21T13:27:09Z)
Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文参考訳（メタデータ） (2020-05-21T01:49:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。