Fugu-MT 論文翻訳(概要): Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes

論文の概要: Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes

arxiv url: http://arxiv.org/abs/2211.15144v1
Date: Mon, 28 Nov 2022 08:56:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 19:43:31.352410
Title: Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes
Title（参考訳）: スケールと一般化の異なるマルチタスクデータに関するオフラインQ-Learning
Authors: Aviral Kumar, Rishabh Agarwal, Xinyang Geng, George Tucker, Sergey Levine
Abstract要約: オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 100.69714600180895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The potential of offline reinforcement learning (RL) is that high-capacity models trained on large, heterogeneous datasets can lead to agents that generalize broadly, analogously to similar advances in vision and NLP. However, recent works argue that offline RL methods encounter unique challenges to scaling up model capacity. Drawing on the learnings from these works, we re-examine previous design choices and find that with appropriate choices: ResNets, cross-entropy based distributional backups, and feature normalization, offline Q-learning algorithms exhibit strong performance that scales with model capacity. Using multi-task Atari as a testbed for scaling and generalization, we train a single policy on 40 games with near-human performance using up-to 80 million parameter networks, finding that model performance scales favorably with capacity. In contrast to prior work, we extrapolate beyond dataset performance even when trained entirely on a large (400M transitions) but highly suboptimal dataset (51% human-level performance). Compared to return-conditioned supervised approaches, offline Q-learning scales similarly with model capacity and has better performance, especially when the dataset is suboptimal. Finally, we show that offline Q-learning with a diverse dataset is sufficient to learn powerful representations that facilitate rapid transfer to novel games and fast online learning on new variations of a training game, improving over existing state-of-the-art representation learning approaches.
Abstract（参考訳）: オフライン強化学習(rl)の可能性は、大規模な異種データセットでトレーニングされた高容量モデルが、視覚とnlpの類似の進歩と同様に、広く一般化されるエージェントにつながる可能性があることである。しかし、最近の研究は、オフラインのRLメソッドはモデルキャパシティのスケールアップに固有の課題に直面していると主張している。これらの研究から得られた知見をもとに,先行設計の選択肢を再検討し,適切な選択を行うことでそれを見出す。resnet,クロスエントロピーベースの分散バックアップ,機能正規化,オフラインのq-learningアルゴリズムは,モデルキャパシティでスケールする強力なパフォーマンスを示す。マルチタスクのAtariをスケーリングと一般化のためのテストベッドとして使用し、最大8000万のパラメータネットワークを用いて40ゲームに1つのポリシーをトレーニングし、モデル性能がキャパシティと良好にスケールできることを発見した。以前の作業とは対照的に、大規模な(4mのトランジッションで完全にトレーニングされた場合でも、データセットのパフォーマンス以上を推定する(人間レベルのパフォーマンスは51%)。回帰条件付き教師付きアプローチと比較して、オフラインのq-learningはモデルキャパシティと同様にスケールし、特にデータセットが最適でない場合、パフォーマンスが向上する。最後に、多様なデータセットを持つオフラインのq-learningは、新しいゲームへの迅速な移行とトレーニングゲームの新たなバリエーションに関する高速なオンライン学習を促進する強力な表現を学習するのに十分であることを示し、既存の最先端表現学習アプローチよりも改善する。

関連論文リスト

Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文参考訳（メタデータ） (2025-09-01T10:04:20Z)
Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection [38.35524024887503]
Prioritized cOncept learninG by Relative Error-driven Sample Selection (PROGRESS)を提案する。 PROGRESSはデータと計算効率のよいフレームワークで、視覚言語モデルで次に何を学習するかを動的に選択できる。 PROGRESSは、データや監督をはるかに少なくして、最先端のベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-06-01T17:05:35Z)
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-07T21:36:52Z)
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文参考訳（メタデータ） (2024-10-01T10:25:03Z)
Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning [6.345851712811528]
本稿では,長期タスク性能を向上させる新しいモデルベースオフラインRL手法であるLow expectile Q-learning(LEQ)を提案する。実験の結果,LEQ は従来のモデルベースオフライン RL 手法よりも長軸タスクの方が有意に優れていた。 LEQはNeoRLベンチマークとD4RL MuJoCo Gymタスクにおける最先端のモデルベースおよびモデルフリーのオフラインRLメソッドに匹敵するパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-06-30T13:44:59Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文参考訳（メタデータ） (2023-12-15T14:49:41Z)
Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文参考訳（メタデータ） (2023-12-08T19:26:13Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。