論文の概要: Can Wikipedia Help Offline Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2201.12122v1
- Date: Fri, 28 Jan 2022 13:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 13:58:00.929670
- Title: Can Wikipedia Help Offline Reinforcement Learning?
- Title(参考訳): wikipediaはオフラインの強化学習に役立つか?
- Authors: Machel Reid, Yutaro Yamada, Shixiang Shane Gu
- Abstract要約: 大規模なオフザシェルフデータセットが不足しているため、微調整強化学習モデルは難しい。
最近の研究では、Transformerアーキテクチャの導入により、オフラインのRLに対処し、その結果を改善している。
オフラインRLタスクを微調整した場合、他の領域(ビジョン、言語)における事前訓練されたシーケンスモデルの転送可能性について検討する。
- 参考スコア(独自算出の注目度): 12.12541097531412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning reinforcement learning (RL) models has been challenging because
of a lack of large scale off-the-shelf datasets as well as high variance in
transferability among different environments. Recent work has looked at
tackling offline RL from the perspective of sequence modeling with improved
results as result of the introduction of the Transformer architecture. However,
when the model is trained from scratch, it suffers from slow convergence
speeds. In this paper, we look to take advantage of this formulation of
reinforcement learning as sequence modeling and investigate the transferability
of pre-trained sequence models on other domains (vision, language) when
finetuned on offline RL tasks (control, games). To this end, we also propose
techniques to improve transfer between these domains. Results show consistent
performance gains in terms of both convergence speed and reward on a variety of
environments, accelerating training by 3-6x and achieving state-of-the-art
performance in a variety of tasks using Wikipedia-pretrained and GPT2 language
models. We hope that this work not only brings light to the potentials of
leveraging generic sequence modeling techniques and pre-trained models for RL,
but also inspires future work on sharing knowledge between generative modeling
tasks of completely different domains.
- Abstract(参考訳): 大規模オフザシェルフデータセットの欠如と、異なる環境間の転送可能性のばらつきのため、微調整強化学習(RL)モデルは困難である。
最近の研究は、Transformerアーキテクチャの導入により、シーケンスモデリングの観点から、オフラインのRLに取り組むことに注目している。
しかし、モデルをスクラッチからトレーニングすると、収束速度が遅くなる。
本稿では、この強化学習をシーケンスモデリングとして活用し、オフラインRLタスク(制御、ゲーム)を微調整した場合に、他のドメイン(ビジョン、言語)における事前訓練されたシーケンスモデルの転送可能性を検討する。
この目的のために、これらのドメイン間の転送を改善する手法も提案する。
結果は,各種環境における収束速度と報酬の両面において一貫したパフォーマンス向上を示し,トレーニングを3~6倍に加速し,WikipediaとGPT2言語モデルを用いた各種タスクにおける最先端のパフォーマンスを達成する。
この作業が、汎用シーケンスモデリング技術とrlの事前学習モデルを活用する可能性に光を当てるだけでなく、まったく異なるドメインのジェネレーティブモデリングタスク間の知識共有に関する今後の作業を促すことを期待しています。
関連論文リスト
- Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Vid2Act: Activate Offline Videos for Visual RL [62.43468793011923]
モデルベースのRL手法であるVid2Actを提案する。
具体的には、ドメイン選択的な知識蒸留損失を用いて、時間変化のあるタスク類似点のセットを生成するよう、世界モデルを訓練する。
本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。