Fugu-MT 論文翻訳(概要): Dataset Distillation for Offline Reinforcement Learning

論文の概要: Dataset Distillation for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.20299v1
Date: Mon, 29 Jul 2024 04:02:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 19:18:14.259338
Title: Dataset Distillation for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のためのデータセット蒸留
Authors: Jonathan Light, Yuanzhe Liu, Ziniu Hu,
Abstract要約: オフラインの強化学習には、しばしばポリシーをトレーニングできる品質データセットが必要です。我々は、データ蒸留を用いてより良いデータセットを訓練し、それからより良いポリシーモデルをトレーニングするために使用できることを提案する。提案手法では,トレーニングしたモデルが,全データセットでトレーニングしたモデルと同じような性能を達成できるようなデータセットを合成することができる。
参考スコア（独自算出の注目度）: 10.206867594761677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning often requires a quality dataset that we can train a policy on. However, in many situations, it is not possible to get such a dataset, nor is it easy to train a policy to perform well in the actual environment given the offline data. We propose using data distillation to train and distill a better dataset which can then be used for training a better policy model. We show that our method is able to synthesize a dataset where a model trained on it achieves similar performance to a model trained on the full dataset or a model trained using percentile behavioral cloning. Our project site is available at https://datasetdistillation4rl.github.io. We also provide our implementation at this GitHub repository: https://github.com/ggflow123/DDRL.
Abstract（参考訳）: オフライン強化学習は、ポリシーをトレーニングできる品質データセットを必要とすることが多い。しかし、多くの状況では、そのようなデータセットを入手することは不可能であり、オフラインデータから実際の環境でうまく動作するようにポリシーを訓練することも容易ではない。我々は、データ蒸留を用いてより良いデータセットを訓練し、それからより良いポリシーモデルをトレーニングするために使用できることを提案する。提案手法は,トレーニングしたモデルが,全データセットでトレーニングしたモデルやパーセンタイルの行動クローンを用いてトレーニングしたモデルと同じような性能を達成できるようなデータセットを合成可能であることを示す。プロジェクトのサイトはhttps://datasetdistillation4rl.github.io.comで公開されている。私たちはまた、このGitHubリポジトリで実装も提供しています。

関連論文リスト

Extracting alignment data in open models [50.81383232591576]
訓練後モデルから大量のアライメントトレーニングデータを抽出できることが示唆された。このデータは、長期コンテキスト推論、安全性、命令追従、数学などの特定の機能を改善するためにモデルを操縦するのに有用である。 SFT や RL のような後トレーニングフェーズで使用されたトレーニングデータを,モデルが容易に再学習できることが判明した。
論文参考訳（メタデータ） (2025-10-21T12:06:00Z)
Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps [47.57615889991631]
オフライン強化学習(RL)は、静的データセットから最適なポリシーを学ぶことを目的としている。本稿では,分布外データに対して頑健なワッサースタイン距離を利用する手法を提案する。提案手法は,D4RLベンチマークデータセット上で広く使用されている手法と同等あるいは優れた性能を示す。
論文参考訳（メタデータ） (2025-07-14T22:28:36Z)
Info-Coevolution: An Efficient Framework for Data Model Coevolution [11.754869657967207]
モデルとデータをバイアスのないオンライン選択アノテーションで共進化させる新しいフレームワークを提案する。 ImageNet-1Kのような現実世界のデータセットでは、Info-Coevolutionはアノテーションとトレーニングコストをパフォーマンス損失なく32%削減する。
論文参考訳（メタデータ） (2025-06-09T17:04:11Z)
DataRater: Meta-Learned Dataset Curation [40.90328309013541]
特定のデータポイントにおけるトレーニングの価値を推定するemphDataRaterを提案する。メタグラディエントを用いてメタラーニングを行い、保持データに対するトレーニング効率を向上させることを目的としている。さまざまなモデルスケールとデータセットにわたる広範な実験では、データフィルタリングにDataRaterを使用することが極めて効果的であることが分かりました。
論文参考訳（メタデータ） (2025-05-23T13:43:14Z)
Transferable text data distillation by trajectory matching [27.826518926355295]
データ蒸留法は、少数のデータサンプルを合成し、全データセットのトレーニング効果を達成することを目的としている。本研究では,軌道マッチングに基づいて擬似的プロンプトデータを学習する手法を提案する。 ARC-Easy と MMLU の命令チューニングデータセットを含む2つのベンチマークによる評価により,SOTA データ選択手法 LESS よりも蒸留法の方が優れていることを確認した。
論文参考訳（メタデータ） (2025-04-14T02:39:26Z)
What Makes a Good Dataset for Knowledge Distillation? [8.594140167290098]
知識蒸留(KD)は、モデル圧縮の一般的かつ効果的な方法である。 KDの重要な前提の1つは、教師のオリジナルのデータセットが学生のトレーニング時にも利用できることである。企業なしデータセットでトレーニングされた大規模なモデルの連続学習や蒸留といった状況では、元のデータにアクセスすることは必ずしも不可能である。
論文参考訳（メタデータ） (2024-11-19T19:10:12Z)
Real-World Offline Reinforcement Learning from Vision Language Model Feedback [19.494335952082466]
オフラインの強化学習は、オンラインインタラクションなしで、事前にコンパイルされた、最適なデータセットからポリシー学習を可能にする。既存のオフラインRL作業の多くは、データセットにタスク報酬がラベル付けされていることを前提としている。オフラインデータセットの報酬ラベルを自動的に生成する新しいシステムを提案する。
論文参考訳（メタデータ） (2024-11-08T02:12:34Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2023-12-15T14:49:41Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-06T17:58:14Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。 MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-11-17T16:15:30Z)
Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (2022-03-22T17:58:59Z)
Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文参考訳（メタデータ） (2021-11-03T08:02:48Z)
Offline RL With Resource Constrained Online Deployment [13.61540280864938]
オフライン強化学習は、環境へのリアルタイムアクセスが高価または不可能なシナリオでポリシーをトレーニングするために使用される。本研究は,新たな資源制約問題設定を導入し,定式化する。完全なオフラインデータセットを使用してトレーニングされたポリシと、限定された機能を使用してトレーニングされたポリシとの間のパフォーマンスギャップを強調します。
論文参考訳（メタデータ） (2021-10-07T03:43:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。