論文の概要: Pretraining Representations for Data-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.04799v1
- Date: Wed, 9 Jun 2021 04:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:04:59.971408
- Title: Pretraining Representations for Data-Efficient Reinforcement Learning
- Title(参考訳): データ効率強化学習のための事前学習表現
- Authors: Max Schwarzer, Nitarshan Rajkumar, Michael Noukhovitch, Ankesh Anand,
Laurent Charlin, Devon Hjelm, Philip Bachman, Aaron Courville
- Abstract要約: ラベルのないデータを使ってエンコーダを事前訓練し、少数のタスク固有のデータに基づいて微調整する。
Atariゲーム上でのインタラクションが100万段階に制限された場合、我々のアプローチは以前の作業を大幅に上回っている。
提案手法では,大規模モデルと組み合わせることで,より多様なタスク整合観測データが得られる。
- 参考スコア(独自算出の注目度): 12.43475487724972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data efficiency is a key challenge for deep reinforcement learning. We
address this problem by using unlabeled data to pretrain an encoder which is
then finetuned on a small amount of task-specific data. To encourage learning
representations which capture diverse aspects of the underlying MDP, we employ
a combination of latent dynamics modelling and unsupervised goal-conditioned
RL. When limited to 100k steps of interaction on Atari games (equivalent to two
hours of human experience), our approach significantly surpasses prior work
combining offline representation pretraining with task-specific finetuning, and
compares favourably with other pretraining methods that require orders of
magnitude more data. Our approach shows particular promise when combined with
larger models as well as more diverse, task-aligned observational data --
approaching human-level performance and data-efficiency on Atari in our best
setting. We provide code associated with this work at
https://github.com/mila-iqia/SGI.
- Abstract(参考訳): データ効率は、深層強化学習の重要な課題である。
非ラベルデータを使用してエンコーダをプリトレーニングし、少量のタスク固有のデータに微調整することで、この問題に対処します。
基礎となるMDPの様々な側面を捉える学習表現を促進するために、潜在力学モデリングと教師なしゴール条件RLを組み合わせた。
atariゲーム上での10万ステップのインタラクション(人間体験の2時間に相当する)に制限された場合、オフライン表現の事前トレーニングとタスク固有の微調整を組み合わせた前作業を大幅に上回り、より多くのデータを必要とする他の事前トレーニング方法と比較する。
我々のアプローチは、より大きなモデルと組み合わせることで、より多様なタスク指向の観察データとともに、atariの人間レベルのパフォーマンスとデータ効率を最高の設定で提示する、特に有望さを示しています。
この作業に関連するコードはhttps://github.com/mila-iqia/sgiで提供します。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Deep Active Learning for Data Mining from Conflict Text Corpora [0.0]
本稿では,能動的学習を活用して,安価で高性能な手法を提案する。
このアプローチは、人間の(ゴールドスタンダードの)コーディングに類似したパフォーマンスを示しながら、必要な人間のアノテーションの量を最大99%削減する。
論文 参考訳(メタデータ) (2024-02-02T17:16:23Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。