論文の概要: Dataset Distillation for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.20299v2
- Date: Thu, 1 Aug 2024 01:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 11:29:04.439944
- Title: Dataset Distillation for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのデータセット蒸留
- Authors: Jonathan Light, Yuanzhe Liu, Ziniu Hu,
- Abstract要約: オフラインの強化学習には、しばしばポリシーをトレーニングできる品質データセットが必要です。
我々は、データ蒸留を用いてより良いデータセットを訓練し、それからより良いポリシーモデルをトレーニングするために使用できることを提案する。
提案手法では,トレーニングしたモデルが,全データセットでトレーニングしたモデルと同じような性能を達成できるようなデータセットを合成することができる。
- 参考スコア(独自算出の注目度): 10.206867594761677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning often requires a quality dataset that we can train a policy on. However, in many situations, it is not possible to get such a dataset, nor is it easy to train a policy to perform well in the actual environment given the offline data. We propose using data distillation to train and distill a better dataset which can then be used for training a better policy model. We show that our method is able to synthesize a dataset where a model trained on it achieves similar performance to a model trained on the full dataset or a model trained using percentile behavioral cloning. Our project site is available at $\href{https://datasetdistillation4rl.github.io}{\text{here}}$. We also provide our implementation at $\href{https://github.com/ggflow123/DDRL}{\text{this GitHub repository}}$.
- Abstract(参考訳): オフライン強化学習は、ポリシーをトレーニングできる品質データセットを必要とすることが多い。
しかし、多くの状況では、そのようなデータセットを入手することは不可能であり、オフラインデータから実際の環境でうまく動作するようにポリシーを訓練することも容易ではない。
我々は、データ蒸留を用いてより良いデータセットを訓練し、それからより良いポリシーモデルをトレーニングするために使用できることを提案する。
提案手法は,トレーニングしたモデルが,全データセットでトレーニングしたモデルやパーセンタイルの行動クローンを用いてトレーニングしたモデルと同じような性能を達成できるようなデータセットを合成可能であることを示す。
私たちのプロジェクトサイトは$\href{https://datasetdistillation4rl.github.io}{\text{here}}$.comで利用可能です。
私たちはまた、$\href{https://github.com/ggflow123/DDRL}{\text{this GitHub repository}}$で実装を提供しています。
関連論文リスト
- Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。
既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。
オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:12:34Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline RL With Resource Constrained Online Deployment [13.61540280864938]
オフライン強化学習は、環境へのリアルタイムアクセスが高価または不可能なシナリオでポリシーをトレーニングするために使用される。
本研究は,新たな資源制約問題設定を導入し,定式化する。
完全なオフラインデータセットを使用してトレーニングされたポリシと、限定された機能を使用してトレーニングされたポリシとの間のパフォーマンスギャップを強調します。
論文 参考訳(メタデータ) (2021-10-07T03:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。