論文の概要: Ensemble and Auxiliary Tasks for Data-Efficient Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2107.01904v2
- Date: Tue, 6 Jul 2021 03:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 14:06:31.935446
- Title: Ensemble and Auxiliary Tasks for Data-Efficient Deep Reinforcement
Learning
- Title(参考訳): データ効率の高い深層強化学習のためのアンサンブルと補助タスク
- Authors: Muhammad Rizki Maulana and Wee Sun Lee
- Abstract要約: 深層Q-ラーニングアルゴリズムと組み合わせた場合のアンサンブルと補助課題の効果について検討する。
本研究では,データ制約下でのATARIゲームに関するケーススタディを行う。
- 参考スコア(独自算出の注目度): 23.039327922407566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble and auxiliary tasks are both well known to improve the performance
of machine learning models when data is limited. However, the interaction
between these two methods is not well studied, particularly in the context of
deep reinforcement learning. In this paper, we study the effects of ensemble
and auxiliary tasks when combined with the deep Q-learning algorithm. We
perform a case study on ATARI games under limited data constraint. Moreover, we
derive a refined bias-variance-covariance decomposition to analyze the
different ways of learning ensembles and using auxiliary tasks, and use the
analysis to help provide some understanding of the case study. Our code is open
source and available at https://github.com/NUS-LID/RENAULT.
- Abstract(参考訳): アンサンブルタスクと補助タスクはどちらも、データ制限時の機械学習モデルのパフォーマンスを改善するためによく知られている。
しかし、これらの2つの手法の相互作用は、特に深層強化学習の文脈ではよく研究されていない。
本稿では,深層q学習アルゴリズムと組み合わせた場合のアンサンブル課題と補助課題の効果について検討する。
我々はデータ制約下でATARIゲームに関するケーススタディを行う。
さらに,学習の仕方や補助的なタスクの仕方を分析し,その分析を用いてケーススタディの理解を深めるため,改良されたバイアス・分散・共分散分解法を導出する。
私たちのコードはオープンソースで、https://github.com/NUS-LID/RENAULT.comで公開されています。
関連論文リスト
- Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Auxiliary-Tasks Learning for Physics-Informed Neural Network-Based
Partial Differential Equations Solving [13.196871939441273]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための有望な代理モードとして登場した。
本研究では,4種類の補助タスク学習モードを提供する補助タスク学習ベースのATL-PINNを提案する。
その結果,提案した補助タスク学習モードは解の精度を大幅に向上し,96.62%の最大性能向上を達成できることがわかった。
論文 参考訳(メタデータ) (2023-07-12T13:46:40Z) - A Dimensional Structure based Knowledge Distillation Method for
Cross-Modal Learning [15.544134849816528]
簡単な作業から抽出した特徴を解析・観察することで特徴識別性と次元構造(DS)の相関を見いだす。
クロスモーダル・ナレッジ・蒸留法 (CMKD) を提案し, 教師付きクロスモーダル・ラーニング (CML) の性能向上を図る。
提案手法は, チャネル的に独立して, 中間的な特徴を均一に分散させることで, その精度を高めるために, 難易度から意味的に無関係な特徴を学習する。
論文 参考訳(メタデータ) (2023-06-28T07:29:26Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Auxiliary Learning by Implicit Differentiation [54.92146615836611]
補助的なタスクによるニューラルネットワークのトレーニングは、関心のあるメインタスクのパフォーマンスを改善するための一般的なプラクティスである。
そこで我々は,暗黙の識別に基づく両課題を対象とした新しいフレームワークAuxiLearnを提案する。
まず、有用な補助関数が知られている場合、全ての損失を1つのコヒーレントな目的関数に組み合わせたネットワークの学習を提案する。
第二に、有用な補助タスクが知られていない場合、意味のある新しい補助タスクを生成するネットワークの学習方法について述べる。
論文 参考訳(メタデータ) (2020-06-22T19:35:07Z) - Towards an Appropriate Query, Key, and Value Computation for Knowledge
Tracing [2.1541440354538564]
本稿では,知識追跡のためのトランスフォーマーベースモデルSAINTを提案する。
SAINTはエンコーダ・デコーダ構造を持ち、エクササイズと応答埋め込みシーケンスはそれぞれエンコーダとデコーダをそれぞれ別々に入力する。
これは知識追跡のためのエンコーダ・デコーダモデルとして,エクササイズとレスポンスを別々に適用する最初の試みである。
論文 参考訳(メタデータ) (2020-02-14T09:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。