論文の概要: Robust Active Distillation
- arxiv url: http://arxiv.org/abs/2210.01213v1
- Date: Mon, 3 Oct 2022 20:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:21:04.209130
- Title: Robust Active Distillation
- Title(参考訳): ロバストな活性蒸留
- Authors: Cenk Baykal, Khoa Trinh, Fotis Iliopoulos, Gaurav Menghani, Erik Vee
- Abstract要約: そこで本研究では,教師が同時に有意かつ正確にラベル付けした点のソフトラベルを問合せするための,証明可能な保証付きパラメータフリーアプローチを提案する。
我々は, 最悪の蒸留事例においても留意すべきアプローチの期待性能に限界を定めている。
- 参考スコア(独自算出の注目度): 13.145513197772914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distilling knowledge from a large teacher model to a lightweight one is a
widely successful approach for generating compact, powerful models in the
semi-supervised learning setting where a limited amount of labeled data is
available. In large-scale applications, however, the teacher tends to provide a
large number of incorrect soft-labels that impairs student performance. The
sheer size of the teacher additionally constrains the number of soft-labels
that can be queried due to prohibitive computational and/or financial costs.
The difficulty in achieving simultaneous \emph{efficiency} (i.e., minimizing
soft-label queries) and \emph{robustness} (i.e., avoiding student inaccuracies
due to incorrect labels) hurts the widespread application of knowledge
distillation to many modern tasks. In this paper, we present a parameter-free
approach with provable guarantees to query the soft-labels of points that are
simultaneously informative and correctly labeled by the teacher. At the core of
our work lies a game-theoretic formulation that explicitly considers the
inherent trade-off between the informativeness and correctness of input
instances. We establish bounds on the expected performance of our approach that
hold even in worst-case distillation instances. We present empirical
evaluations on popular benchmarks that demonstrate the improved distillation
performance enabled by our work relative to that of state-of-the-art active
learning and active distillation methods.
- Abstract(参考訳): 大規模教師モデルから軽量モデルへの知識の希薄化は,ラベル付きデータが限られている半教師付き学習環境において,コンパクトで強力なモデルを生成するために広く成功したアプローチである。
しかし、大規模な応用では、教師は学生のパフォーマンスを損なう多くの間違ったソフトラベルを提供する傾向にある。
教師の重大さは、禁止的な計算および/または金銭的コストのためにクエリできるソフトラベルの数を制限している。
同時に'emph{efficiency}(ソフトラベルクエリの最小化)と'emph{robustness}(不正確なラベルによる学生の不正確さを避けること)を達成することの難しさは、知識蒸留を多くの現代的なタスクに広く適用することを妨げる。
本稿では,教師が同時に有意かつ正しくラベル付けした点のソフトラベルを問うために,証明可能な保証付きパラメータフリーアプローチを提案する。
私たちの研究の中心にはゲーム理論の定式化があり、入力インスタンスのインフォメーション性と正確性の間の本質的にのトレードオフを明示的に考慮しています。
最悪の蒸留事例においても維持されるアプローチの期待性能の限界を確立する。
現状のアクティブラーニングおよびアクティブ蒸留法と比較して,我々の研究で実現した蒸留性能の向上を実証した,人気ベンチマークの実証評価を行った。
関連論文リスト
- Mitigating Label Noise through Data Ambiguation [9.51828574518325]
表現力の高い大型モデルは、誤ったラベルを記憶する傾向があるため、一般化性能を損なう。
本稿では,対象情報の「曖昧化」により,両手法の欠点に対処することを提案する。
より正確には、いわゆる超集合学習の枠組みを利用して、信頼度閾値に基づいて設定値の目標を構築する。
論文 参考訳(メタデータ) (2023-05-23T07:29:08Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - SLaM: Student-Label Mixing for Distillation with Unlabeled Examples [15.825078347452024]
学生ラベル混合(SLaM)と呼ばれる未ラベル例を用いた知識蒸留の原理的手法を提案する。
SLaMは、いくつかの標準ベンチマークで評価することで、従来のアプローチよりも一貫して改善されている。
ランダムな分類雑音下でハーフスペースを学習する際の最もよく知られたサンプル複雑性を改善するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T00:14:44Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Weighted Distillation with Unlabeled Examples [15.825078347452024]
ラベルなし例による蒸留は、ラベル付きデータの量を制限する設定において、ディープニューラルネットワークをトレーニングするための一般的で強力な方法である。
本稿では, 蒸留訓練のパラダイムに合わせて, 学生の損失関数の再重み付けに基づいて, この問題に対処するための原則的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T04:08:56Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Robustness of Accuracy Metric and its Inspirations in Learning with
Noisy Labels [51.66448070984615]
十分な数の雑音サンプルに対してトレーニング精度を最大化すると,ほぼ最適な分類器が得られることを示す。
検証のために、ノイズの多い検証セットが信頼できることを証明し、モデル選択のクリティカルな要求に対処する。
理論結果に動機づけられて,ノイズラベルをトレーニングしたモデルの特徴付けを行い,ノイズ検証セットの有用性を検証する。
論文 参考訳(メタデータ) (2020-12-08T03:37:47Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。