論文の概要: Learning to Reweight with Deep Interactions
- arxiv url: http://arxiv.org/abs/2007.04649v2
- Date: Tue, 12 Jan 2021 08:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:21:29.071477
- Title: Learning to Reweight with Deep Interactions
- Title(参考訳): 深い相互作用で再重み付けを学ぶ
- Authors: Yang Fan, Yingce Xia, Lijun Wu, Shufang Xie, Weiqing Liu, Jiang Bian,
Tao Qin, Xiang-Yang Li
- Abstract要約: 本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
- 参考スコア(独自算出の注目度): 104.68509759134878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the concept of teaching has been introduced into machine learning,
in which a teacher model is used to guide the training of a student model
(which will be used in real tasks) through data selection, loss function
design, etc. Learning to reweight, which is a specific kind of teaching that
reweights training data using a teacher model, receives much attention due to
its simplicity and effectiveness. In existing learning to reweight works, the
teacher model only utilizes shallow/surface information such as training
iteration number and loss/accuracy of the student model from
training/validation sets, but ignores the internal states of the student model,
which limits the potential of learning to reweight. In this work, we propose an
improved data reweighting algorithm, in which the student model provides its
internal states to the teacher model, and the teacher model returns adaptive
weights of training samples to enhance the training of the student model. The
teacher model is jointly trained with the student model using meta gradients
propagated from a validation set. Experiments on image classification with
clean/noisy labels and neural machine translation empirically demonstrate that
our algorithm makes significant improvement over previous methods.
- Abstract(参考訳): 近年,教師モデルを用いて,データ選択や損失関数設計などを通じて,学生モデル(実際のタスクで使用される)のトレーニングを指導する機械学習の概念が導入されている。
教師モデルを用いてトレーニングデータを重み付けする特定の種類の授業であるリウェイトへの学習は、その単純さと有効性から多くの注目を集める。
教師モデルでは,学習繰り返し数や学習モデルの損失/正確性などの浅面情報のみを学習/評価セットから活用するが,学習モデルの内部状態を無視し,学習結果の再重み付けの可能性を制限する。
本研究では,教師モデルが教師モデルに内部状態を提供する改良データ重み付けアルゴリズムを提案し,教師モデルが学習サンプルの適応重み付けを返し,生徒モデルのトレーニングを強化する。
教師モデルは、検証セットから伝播するメタ勾配を用いて、生徒モデルと共同で訓練される。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験により,従来の手法に比べて大きな改善が得られた。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - UnLearning from Experience to Avoid Spurious Correlations [3.283369870504872]
我々は,突発的相関の問題に対処する新しいアプローチを提案する: 経験から学ぶ(ULE)
本手法は,生徒モデルと教師モデルという,並列に訓練された2つの分類モデルを用いた。
提案手法は,Waterbirds,CelebA,Spawrious,UrbanCarsの各データセットに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-04T15:06:44Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - L2T-DLN: Learning to Teach with Dynamic Loss Network [4.243592852049963]
既存の研究では、教師の反復モデル(1)は、学生モデルの現在の状態に基づいて損失関数を単に決定するだけである。
本稿では,まず,記憶単位を持つ教師モデルを設計し,時間的タスクとして損失調整を定式化する。
そして、ダイナミックな損失ネットワークにより、損失の状態を利用して、教師と生徒モデルとの相互作用を強化する教師の学習を支援する。
論文 参考訳(メタデータ) (2023-10-30T07:21:40Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Forward Compatible Training for Representation Learning [53.300192863727226]
後方互換トレーニング(BCT)は、新しいモデルのトレーニングを変更して、その表現を古いモデルのトレーニングと互換性を持たせる。
BCTは新しいモデルの性能を著しく損なう可能性がある。
本研究では,表現学習のための新しい学習パラダイムである,前方互換学習(FCT)を提案する。
論文 参考訳(メタデータ) (2021-12-06T06:18:54Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MED-TEX: Transferring and Explaining Knowledge with Less Data from
Pretrained Medical Imaging Models [38.12462659279648]
小学生モデルは、厄介な予習教師モデルから知識を蒸留することにより、少ないデータで学習される。
教師モデルの予測に重要な入力領域を強調するために、説明モジュールを導入する。
本フレームワークは,基礎データセットの最先端手法と比較して,知識蒸留とモデル解釈のタスクに優れる。
論文 参考訳(メタデータ) (2020-08-06T11:50:32Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。