論文の概要: Behaviour Distillation
- arxiv url: http://arxiv.org/abs/2406.15042v1
- Date: Fri, 21 Jun 2024 10:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:53:51.438316
- Title: Behaviour Distillation
- Title(参考訳): ビヘイビア蒸留
- Authors: Andrei Lupu, Chris Lu, Jarek Liesen, Robert Tjarko Lange, Jakob Foerster,
- Abstract要約: 我々は、専門家ポリシーのトレーニングに必要な情報を合成データセットに発見・凝縮することを目的とした行動蒸留を定式化する。
次に,Halucinating datasets with Evolution Strategies (HaDES)を紹介した。
これらのデータセットは分散から多種多様なアーキテクチャでトレーニングポリシーへと一般化されていることを示す。
また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。
- 参考スコア(独自算出の注目度): 10.437472004180883
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dataset distillation aims to condense large datasets into a small number of synthetic examples that can be used as drop-in replacements when training new models. It has applications to interpretability, neural architecture search, privacy, and continual learning. Despite strong successes in supervised domains, such methods have not yet been extended to reinforcement learning, where the lack of a fixed dataset renders most distillation methods unusable. Filling the gap, we formalize behaviour distillation, a setting that aims to discover and then condense the information required for training an expert policy into a synthetic dataset of state-action pairs, without access to expert data. We then introduce Hallucinating Datasets with Evolution Strategies (HaDES), a method for behaviour distillation that can discover datasets of just four state-action pairs which, under supervised learning, train agents to competitive performance levels in continuous control tasks. We show that these datasets generalize out of distribution to training policies with a wide range of architectures and hyperparameters. We also demonstrate application to a downstream task, namely training multi-task agents in a zero-shot fashion. Beyond behaviour distillation, HaDES provides significant improvements in neuroevolution for RL over previous approaches and achieves SoTA results on one standard supervised dataset distillation task. Finally, we show that visualizing the synthetic datasets can provide human-interpretable task insights.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットを少数の合成例にまとめることを目的としており、新しいモデルをトレーニングする際にドロップイン代替として使用できる。
解釈可能性、ニューラルアーキテクチャ検索、プライバシ、継続的な学習に応用できる。
教師付きドメインでの強い成功にもかかわらず、そのような手法はまだ強化学習に拡張されておらず、固定されたデータセットの欠如がほとんどの蒸留法を使用不可能にしている。
このギャップを埋めて、私たちは、専門家のポリシーを訓練するために必要な情報を、専門家のデータにアクセスすることなく、ステートアクションペアの合成データセットに格納する、行動蒸留を形式化します。
次に,Halucinating Datasets with Evolution Strategies (HaDES)を紹介した。これは,4つの状態-作用ペアのデータセットを探索し,教師付き学習の下で,連続制御タスクにおける競合的なパフォーマンスレベルにエージェントを訓練する,行動蒸留の手法である。
これらのデータセットは分散から多岐にわたるアーキテクチャとハイパーパラメータによるトレーニングポリシへと一般化されていることを示す。
また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。
行動蒸留以外にも、HaDESは以前のアプローチよりもRLの神経進化を著しく改善し、1つの標準教師付きデータセット蒸留タスクでSoTA結果を達成する。
最後に、合成データセットを可視化することで、人間の解釈可能なタスクの洞察が得られることを示す。
関連論文リスト
- Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Comprehensive Study on Dataset Distillation: Performance, Privacy,
Robustness and Fairness [8.432686179800543]
我々は,現在最先端のデータセット蒸留法を評価するために,広範囲な実験を行っている。
私たちは、プライバシーリスクがまだ残っていることを示すために、メンバーシップ推論攻撃をうまく利用しています。
この研究は、データセットの蒸留評価のための大規模なベンチマークフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T08:19:27Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Data Distillation: A Survey [32.718297871027865]
ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。
個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。
データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
論文 参考訳(メタデータ) (2023-01-11T02:25:10Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。