論文の概要: Generative Adversarial Simulator
- arxiv url: http://arxiv.org/abs/2011.11472v1
- Date: Mon, 23 Nov 2020 15:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:26:56.827014
- Title: Generative Adversarial Simulator
- Title(参考訳): 生成逆数シミュレータ
- Authors: Jonathan Raiman
- Abstract要約: 強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
- 参考スコア(独自算出の注目度): 2.3986080077861787
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge distillation between machine learning models has opened many new
avenues for parameter count reduction, performance improvements, or amortizing
training time when changing architectures between the teacher and student
network. In the case of reinforcement learning, this technique has also been
applied to distill teacher policies to students. Until now, policy distillation
required access to a simulator or real world trajectories.
In this paper we introduce a simulator-free approach to knowledge
distillation in the context of reinforcement learning. A key challenge is
having the student learn the multiplicity of cases that correspond to a given
action. While prior work has shown that data-free knowledge distillation is
possible with supervised learning models by generating synthetic examples,
these approaches to are vulnerable to only producing a single prototype example
for each class. We propose an extension to explicitly handle multiple
observations per output class that seeks to find as many exemplars as possible
for a given output class by reinitializing our data generator and making use of
an adversarial loss.
To the best of our knowledge, this is the first demonstration of
simulator-free knowledge distillation between a teacher and a student policy.
This new approach improves over the state of the art on data-free learning of
student networks on benchmark datasets (MNIST, Fashion-MNIST, CIFAR-10), and we
also demonstrate that it specifically tackles issues with multiple input modes.
We also identify open problems when distilling agents trained in high
dimensional environments such as Pong, Breakout, or Seaquest.
- Abstract(参考訳): 機械学習モデル間の知識の蒸留は、教師と学生ネットワーク間のアーキテクチャ変更時のパラメータカウントの削減、パフォーマンス改善、あるいはトレーニング時間の短縮のために、多くの新しい道を開いた。
強化学習の場合、この手法は生徒への教師政策の蒸留にも応用されている。
これまで、政策蒸留はシミュレータや現実世界の軌道へのアクセスを必要としていた。
本稿では,強化学習の文脈における知識蒸留に対するシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
先行研究により, 教師付き学習モデルを用いてデータフリーな知識蒸留が可能であることが示されているが, これらの手法は, 各クラスに対してのみ, 単一の試行例を生成するのに脆弱である。
本稿では,出力クラス毎に複数の観測を明示的に処理する拡張を提案し,データ生成装置を再起動し,対向的な損失を生かして,出力クラスに対して可能な限り多くの例を見いだそうとしている。
私たちの知る限りでは、これは教師と学生の方針の間のシミュレータフリーな知識蒸留の最初の実演です。
この新しいアプローチは、ベンチマークデータセット(MNIST、Fashion-MNIST、CIFAR-10)上での学生ネットワークのデータフリー学習の状況を改善するとともに、複数の入力モードで問題に対処することを実証する。
また,pong,breakout,seaquestなどの高次元環境において蒸留剤をトレーニングした場合の開封問題も特定した。
関連論文リスト
- Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Synthetic data generation method for data-free knowledge distillation in
regression neural networks [0.0]
知識蒸留は、教師として知られる大きなニューラルネットワークを、学生として知られる小さなニューラルネットワークに圧縮する技術である。
従来, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法が提案されてきた。
本研究では, 各種合成データ生成手法の挙動について検討し, 新たな合成データ生成戦略を提案する。
論文 参考訳(メタデータ) (2023-01-11T07:26:00Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Extracting knowledge from features with multilevel abstraction [3.4443503349903124]
自己知識蒸留(SKD)は、大きな教師モデルから小さな学生モデルに知識を移すことを目的としている。
本稿では,本手法と異なる方法で,新しいSKD手法を提案する。
実験とアブレーション研究は、様々なタスクにおいて、その大きな効果と一般化を示している。
論文 参考訳(メタデータ) (2021-12-04T02:25:46Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Data-Efficient Ranking Distillation for Image Retrieval [15.88955427198763]
近年のアプローチでは、より深く重いアーキテクチャからより小さなネットワークへ知識を伝達するために、知識蒸留を用いてこの問題に対処している。
本稿では,計量学習問題に対する知識蒸留について述べる。
従来の手法とは違って,提案手法では,教師モデルに対する限定的なクエリ,最終出力表現へのアクセスを伴うブラックボックス教師モデル,および第3に,基本トラストラベルのないオリジナルトレーニングデータのごく一部に対処する。
論文 参考訳(メタデータ) (2020-07-10T10:59:16Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。