論文の概要: Pre-training with Synthetic Data Helps Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.00771v4
- Date: Mon, 27 May 2024 17:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:49:02.084958
- Title: Pre-training with Synthetic Data Helps Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習を支援する合成データによる事前学習
- Authors: Zecheng Wang, Che Wang, Zixuan Dong, Keith Ross,
- Abstract要約: 性能向上には言語が不可欠ではないことを示す。
次に、人気のあるオフラインDRLアルゴリズムである保守的Q-Learning(CQL)について検討する。
驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングにより、CQLも改善される。
- 参考スコア(独自算出の注目度): 4.531082205797088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, it has been shown that for offline deep reinforcement learning (DRL), pre-training Decision Transformer with a large language corpus can improve downstream performance (Reid et al., 2022). A natural question to ask is whether this performance gain can only be achieved with language pre-training, or can be achieved with simpler pre-training schemes which do not involve language. In this paper, we first show that language is not essential for improved performance, and indeed pre-training with synthetic IID data for a small number of updates can match the performance gains from pre-training with a large language corpus; moreover, pre-training with data generated by a one-step Markov chain can further improve the performance. Inspired by these experimental results, we then consider pre-training Conservative Q-Learning (CQL), a popular offline DRL algorithm, which is Q-learning-based and typically employs a Multi-Layer Perceptron (MLP) backbone. Surprisingly, pre-training with simple synthetic data for a small number of updates can also improve CQL, providing consistent performance improvement on D4RL Gym locomotion datasets. The results of this paper not only illustrate the importance of pre-training for offline DRL but also show that the pre-training data can be synthetic and generated with remarkably simple mechanisms.
- Abstract(参考訳): 近年,オフライン深部強化学習(DRL)では,大規模な言語コーパスを持つ事前学習型決定変換器が下流の性能を向上させることが示されている(Reid et al , 2022)。
自然な疑問は、このパフォーマンス向上が言語事前学習でのみ達成できるのか、それとも言語を含まないより単純な事前学習スキームで達成できるのかである。
本稿では、まず、言語が性能向上に不可欠ではないことを示すとともに、少数の更新のための合成IDデータによる事前学習は、大規模言語コーパスによる事前学習による性能向上と一致し得ることを示し、さらに、1ステップのマルコフ連鎖によって生成されたデータによる事前学習は、パフォーマンスをさらに向上させることができる。
これらの実験結果に触発されて、一般的なオフラインDRLアルゴリズムである事前学習型保守的Q-Learning(CQL)について検討する。
驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングは、CQLを改善し、D4RL Gymロコモーションデータセットの一貫性のあるパフォーマンス向上を提供する。
本研究の結果は, オフラインDRLの事前学習の重要性だけでなく, 極めて単純な機構で事前学習データを合成し, 生成できることを示唆している。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Lifelong Language Pretraining with Distribution-Specialized Experts [39.86463645187337]
Lifelong Learningの目的は、情報システムが時間にわたって連続したデータストリームから学習できるようにすることだ。
モデルキャパシティを動的に追加するMoEアーキテクチャであるLifelong-MoEを提案する。
既存の生涯学習アプローチと比較して、Lifelong-MoEは、19の下流のNLPタスクにおいて、より優れた数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-20T21:15:19Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Match to Win: Analysing Sequences Lengths for Efficient Self-supervised
Learning in Speech and Audio [19.865050806327147]
自己教師型学習は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。
本稿では、特定配列長の異なるSSL事前トレーニングに関する最初の実証的研究について述べる。
ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T16:35:42Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。