論文の概要: Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes
- arxiv url: http://arxiv.org/abs/2211.15144v1
- Date: Mon, 28 Nov 2022 08:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:43:31.352410
- Title: Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes
- Title(参考訳): スケールと一般化の異なるマルチタスクデータに関するオフラインQ-Learning
- Authors: Aviral Kumar, Rishabh Agarwal, Xinyang Geng, George Tucker, Sergey
Levine
- Abstract要約: オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 100.69714600180895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential of offline reinforcement learning (RL) is that high-capacity
models trained on large, heterogeneous datasets can lead to agents that
generalize broadly, analogously to similar advances in vision and NLP. However,
recent works argue that offline RL methods encounter unique challenges to
scaling up model capacity. Drawing on the learnings from these works, we
re-examine previous design choices and find that with appropriate choices:
ResNets, cross-entropy based distributional backups, and feature normalization,
offline Q-learning algorithms exhibit strong performance that scales with model
capacity. Using multi-task Atari as a testbed for scaling and generalization,
we train a single policy on 40 games with near-human performance using up-to 80
million parameter networks, finding that model performance scales favorably
with capacity. In contrast to prior work, we extrapolate beyond dataset
performance even when trained entirely on a large (400M transitions) but highly
suboptimal dataset (51% human-level performance). Compared to
return-conditioned supervised approaches, offline Q-learning scales similarly
with model capacity and has better performance, especially when the dataset is
suboptimal. Finally, we show that offline Q-learning with a diverse dataset is
sufficient to learn powerful representations that facilitate rapid transfer to
novel games and fast online learning on new variations of a training game,
improving over existing state-of-the-art representation learning approaches.
- Abstract(参考訳): オフライン強化学習(rl)の可能性は、大規模な異種データセットでトレーニングされた高容量モデルが、視覚とnlpの類似の進歩と同様に、広く一般化されるエージェントにつながる可能性があることである。
しかし、最近の研究は、オフラインのRLメソッドはモデルキャパシティのスケールアップに固有の課題に直面していると主張している。
これらの研究から得られた知見をもとに,先行設計の選択肢を再検討し,適切な選択を行うことでそれを見出す。resnet,クロスエントロピーベースの分散バックアップ,機能正規化,オフラインのq-learningアルゴリズムは,モデルキャパシティでスケールする強力なパフォーマンスを示す。
マルチタスクのAtariをスケーリングと一般化のためのテストベッドとして使用し、最大8000万のパラメータネットワークを用いて40ゲームに1つのポリシーをトレーニングし、モデル性能がキャパシティと良好にスケールできることを発見した。
以前の作業とは対照的に、大規模な(4mのトランジッションで完全にトレーニングされた場合でも、データセットのパフォーマンス以上を推定する(人間レベルのパフォーマンスは51%)。
回帰条件付き教師付きアプローチと比較して、オフラインのq-learningはモデルキャパシティと同様にスケールし、特にデータセットが最適でない場合、パフォーマンスが向上する。
最後に、多様なデータセットを持つオフラインのq-learningは、新しいゲームへの迅速な移行とトレーニングゲームの新たなバリエーションに関する高速なオンライン学習を促進する強力な表現を学習するのに十分であることを示し、既存の最先端表現学習アプローチよりも改善する。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Bad Students Make Great Teachers: Active Learning Accelerates
Large-Scale Visual Understanding [9.655434542591815]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - On the Feasibility of Cross-Task Transfer with Model-Based Reinforcement
Learning [45.73223325256312]
最新のモデルベースRLアルゴリズムで学習した内部モデルが、新しい明らかに異なるタスクを高速に解くために活用できるかどうかを考察する。
我々は,学習世界のモデルのスケーラブルな事前学習と微調整が可能な,サンプル効率の高いオンラインRLのためのフレームワークであるModel-Based Cross-Task Transfer (XTRA)を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。