論文の概要: Proto-Value Networks: Scaling Representation Learning with Auxiliary
Tasks
- arxiv url: http://arxiv.org/abs/2304.12567v1
- Date: Tue, 25 Apr 2023 04:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:59:14.751431
- Title: Proto-Value Networks: Scaling Representation Learning with Auxiliary
Tasks
- Title(参考訳): proto-value network: 補助タスクによる表現学習のスケーリング
- Authors: Jesse Farebrother, Joshua Greaves, Rishabh Agarwal, Charline Le Lan,
Ross Goroshin, Pablo Samuel Castro, Marc G. Bellemare
- Abstract要約: 補助的なタスクは、深層強化学習エージェントによって学習された表現を改善する。
我々は、後継措置に基づく新しい補助業務のファミリーを導出する。
プロト値ネットワークは、確立されたアルゴリズムに匹敵する性能を得るために、リッチな特徴を生み出すことを示す。
- 参考スコア(独自算出の注目度): 33.98624423578388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auxiliary tasks improve the representations learned by deep reinforcement
learning agents. Analytically, their effect is reasonably well understood; in
practice, however, their primary use remains in support of a main learning
objective, rather than as a method for learning representations. This is
perhaps surprising given that many auxiliary tasks are defined procedurally,
and hence can be treated as an essentially infinite source of information about
the environment. Based on this observation, we study the effectiveness of
auxiliary tasks for learning rich representations, focusing on the setting
where the number of tasks and the size of the agent's network are
simultaneously increased. For this purpose, we derive a new family of auxiliary
tasks based on the successor measure. These tasks are easy to implement and
have appealing theoretical properties. Combined with a suitable off-policy
learning rule, the result is a representation learning algorithm that can be
understood as extending Mahadevan & Maggioni (2007)'s proto-value functions to
deep reinforcement learning -- accordingly, we call the resulting object
proto-value networks. Through a series of experiments on the Arcade Learning
Environment, we demonstrate that proto-value networks produce rich features
that may be used to obtain performance comparable to established algorithms,
using only linear approximation and a small number (~4M) of interactions with
the environment's reward function.
- Abstract(参考訳): 補助的タスクは、深層強化学習エージェントが学習した表現を改善する。
分析学的には、それらの効果は合理的によく理解されているが、実際には、その主な用途は、表現の学習方法としてではなく、主要な学習目標を支持することである。
多くの補助的なタスクが手続き的に定義されるので、環境に関する情報の本質的に無限の情報源として扱うことができるので、これはおそらく驚くべきことである。
本研究は,エージェントネットワークのタスク数とサイズを同時に増加させる設定に着目し,豊かな表現を学習するための補助的タスクの有効性について検討する。
この目的のために、後継の尺度に基づく補助タスクの新しいファミリーを導出する。
これらのタスクは実装が容易であり、理論的な特性をアピールする。
適切なオフポリシー学習ルールと組み合わせることで、結果は表現学習アルゴリズムであり、mahadevan & maggioni (2007)のproto-value関数を深層強化学習に拡張したものと解釈できる。
アーケード学習環境における一連の実験を通じて,proto-valueネットワークは,線形近似と環境の報酬関数との相互作用(約4m)のみを用いて,確立されたアルゴリズムに匹敵する性能を得るための豊富な特徴を生成できることを実証した。
関連論文リスト
- Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Learning Good Features to Transfer Across Tasks and Domains [16.05821129333396]
まず、与えられたドメイン内のタスク固有の深い機能間のマッピングを学習することで、タスク間でそのような知識を共有できることを示します。
そして、ニューラルネットワークによって実装されたこのマッピング関数が、新しい未知の領域に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-01-26T18:49:39Z) - Auxiliary task discovery through generate-and-test [7.800263769988046]
補助的なタスクは、エージェントに補助的な予測と制御目的を学習させることで、データ効率を向上させる。
本稿では,表現学習のアイデアに基づく強化学習における補助的タスク発見へのアプローチについて検討する。
本研究は,これらの特徴が主課題にどの程度有用かに基づいて,補助課題の有用性を示す新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:37Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Learning to Represent Action Values as a Hypergraph on the Action
Vertices [17.811355496708728]
行動値推定は強化学習法(RL)の重要な要素である。
多次元のアクション空間の構造を活用することが、アクションの優れた表現を学ぶための鍵となる要素であると推測する。
Atari 2600 ゲームや、離散化物理制御ベンチマークなど、無数の領域に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-10-28T00:19:13Z) - Auxiliary Learning by Implicit Differentiation [54.92146615836611]
補助的なタスクによるニューラルネットワークのトレーニングは、関心のあるメインタスクのパフォーマンスを改善するための一般的なプラクティスである。
そこで我々は,暗黙の識別に基づく両課題を対象とした新しいフレームワークAuxiLearnを提案する。
まず、有用な補助関数が知られている場合、全ての損失を1つのコヒーレントな目的関数に組み合わせたネットワークの学習を提案する。
第二に、有用な補助タスクが知られていない場合、意味のある新しい補助タスクを生成するネットワークの学習方法について述べる。
論文 参考訳(メタデータ) (2020-06-22T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。