Fugu-MT 論文翻訳(概要): Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting the Tree

論文の概要: Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting the Tree

arxiv url: http://arxiv.org/abs/2110.02497v1
Date: Wed, 6 Oct 2021 04:25:14 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-08 03:58:41.580232
Title: Pretraining & Reinforcement Learning: Sharpening the Axe Before Cutting the Tree
Title（参考訳）: プレトレーニングと強化学習:木を切る前に軸を削る
Authors: Saurav Kadavath, Samuel Paradis, Brian Yao
Abstract要約: プレトレーニングは、パフォーマンスを高め、トレーニング時間を短縮するためのディープラーニングの一般的なテクニックである。大規模かつ公開可能なデータセットとケースバイケース生成データセットを用いて,RLタスクの事前学習の有効性を評価した。その結果、関連するデータセットのトレーニング中に学んだフィルタが事前トレーニングを非効率にするのに対して、分散データセットのトレーニング中に学んだフィルタは、RLトレーニング時間を確実に短縮し、80k RLトレーニングステップ後のパフォーマンスを改善することが示唆された。
参考スコア（独自算出の注目度）: 2.0142516017086165
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretraining is a common technique in deep learning for increasing performance and reducing training time, with promising experimental results in deep reinforcement learning (RL). However, pretraining requires a relevant dataset for training. In this work, we evaluate the effectiveness of pretraining for RL tasks, with and without distracting backgrounds, using both large, publicly available datasets with minimal relevance, as well as case-by-case generated datasets labeled via self-supervision. Results suggest filters learned during training on less relevant datasets render pretraining ineffective, while filters learned during training on the in-distribution datasets reliably reduce RL training time and improve performance after 80k RL training steps. We further investigate, given a limited number of environment steps, how to optimally divide the available steps into pretraining and RL training to maximize RL performance. Our code is available on GitHub
Abstract（参考訳）: プレトレーニング(Pretraining)は、ディープラーニングにおけるパフォーマンス向上とトレーニング時間短縮のための一般的な手法であり、深層強化学習(RL)の有望な実験結果である。しかし、事前トレーニングには関連するデータセットが必要である。本研究では,背景を乱すことなくrlタスクの事前学習の有効性を評価し,有効性が最小限の大規模データセットと,自己スーパービジョンでラベル付けされたケースバイケース生成データセットの両方を用いて評価する。その結果、関連するデータセットのトレーニング中に学んだフィルタが事前トレーニングを非効率にするのに対して、分散データセットのトレーニング中に学んだフィルタは、RLトレーニング時間を確実に短縮し、80k RLトレーニングステップ後のパフォーマンスを改善することが示唆された。さらに、限られた環境段階を考慮し、利用可能なステップを事前訓練とRLトレーニングに最適に分割し、RL性能を最大化する方法について検討する。私たちのコードはGitHubで入手できる

関連論文リスト

Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2023-12-15T14:49:41Z)
Pre-training with Synthetic Data Helps Offline Reinforcement Learning [4.531082205797088]
性能向上には言語が不可欠ではないことを示す。次に、人気のあるオフラインDRLアルゴリズムである保守的Q-Learning(CQL)について検討する。驚くべきことに、少数の更新のための単純な合成データによる事前トレーニングにより、CQLも改善される。
論文参考訳（メタデータ） (2023-10-01T19:32:14Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Zero-Shot Reinforcement Learning from Low Quality Data [5.079602839359521]
ゼロショット強化学習(Zero-shot reinforcement learning, RL)は、オフラインで報酬なしの事前トレーニングフェーズの後に、環境内であらゆるタスクを実行できるエージェントを提供することを約束する。そこで本研究では、ゼロショットRL法の性能が、小さな同種データセットでトレーニングした場合にどのように低下するかを考察する。本稿では,単一タスクのオフラインRLアルゴリズムの高性能な特徴である保守性に着想を得た修正を提案する。
論文参考訳（メタデータ） (2023-09-26T18:20:20Z)
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (2023-09-08T19:34:05Z)
D4: Improving LLM Pretraining via Document De-Duplication and Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文参考訳（メタデータ） (2023-08-23T17:58:14Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。 HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文参考訳（メタデータ） (2021-03-23T17:37:51Z)
Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1～3%改善する。
論文参考訳（メタデータ） (2020-11-20T06:16:15Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。