論文の概要: Distilling Reinforcement Learning into Single-Batch Datasets
- arxiv url: http://arxiv.org/abs/2508.09283v1
- Date: Tue, 12 Aug 2025 18:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.666069
- Title: Distilling Reinforcement Learning into Single-Batch Datasets
- Title(参考訳): 単一バッチデータセットへの蒸留強化学習
- Authors: Connor Wilhelm, Dan Ventura,
- Abstract要約: 蒸留は、強化学習環境を1バッチの教師付き学習データセットに蒸留することにより、様々なタスクに一般化可能であることを実証する。
このことは、蒸留が強化学習タスクを圧縮する能力だけでなく、ある学習モダリティを別の学習モダリティに変換する能力も示している。
本稿では,メタラーニングのためのポリシ最適化を新たに拡張し,従来のカートポール問題の多次元拡張の蒸留に利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation compresses a large dataset into a small synthetic dataset such that learning on the synthetic dataset approximates learning on the original. Training on the distilled dataset can be performed in as little as one step of gradient descent. We demonstrate that distillation is generalizable to different tasks by distilling reinforcement learning environments into one-batch supervised learning datasets. This demonstrates not only distillation's ability to compress a reinforcement learning task but also its ability to transform one learning modality (reinforcement learning) into another (supervised learning). We present a novel extension of proximal policy optimization for meta-learning and use it in distillation of a multi-dimensional extension of the classic cart-pole problem, all MuJoCo environments, and several Atari games. We demonstrate distillation's ability to compress complex RL environments into one-step supervised learning, explore RL distillation's generalizability across learner architectures, and demonstrate distilling an environment into the smallest-possible synthetic dataset.
- Abstract(参考訳): データセット蒸留は、大きなデータセットを小さな合成データセットに圧縮し、合成データセットの学習が元のデータセットの学習を近似させる。
蒸留したデータセットのトレーニングは、勾配降下の1ステップで行うことができる。
蒸留は、強化学習環境を1バッチの教師付き学習データセットに蒸留することにより、様々なタスクに一般化可能であることを実証する。
これは、蒸留が強化学習タスクを圧縮する能力だけでなく、ある学習モダリティ(強化学習)を別の学習(教師付き学習)に変換する能力も示している。
メタラーニングのための近似ポリシー最適化を新たに拡張し,従来のカートポール問題の多次元拡張,すべての MuJoCo 環境,およびいくつかのアタリゲームに応用する。
本稿では、複雑なRL環境を1段階の教師付き学習に圧縮し、学習者アーキテクチャ全体にわたるRL蒸留の一般化可能性を探究し、最小限の合成データセットに環境を蒸留する能力を実証する。
関連論文リスト
- Behaviour Distillation [10.437472004180883]
我々は、専門家ポリシーのトレーニングに必要な情報を合成データセットに発見・凝縮することを目的とした行動蒸留を定式化する。
次に,Halucinating datasets with Evolution Strategies (HaDES)を紹介した。
これらのデータセットは分散から多種多様なアーキテクチャでトレーニングポリシーへと一般化されていることを示す。
また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。
論文 参考訳(メタデータ) (2024-06-21T10:45:43Z) - What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。