論文の概要: Unsupervised Representation Learning in Deep Reinforcement Learning: A Review
- arxiv url: http://arxiv.org/abs/2208.14226v3
- Date: Wed, 1 May 2024 13:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 20:50:17.903430
- Title: Unsupervised Representation Learning in Deep Reinforcement Learning: A Review
- Title(参考訳): 深層強化学習における教師なし表現学習
- Authors: Nicolò Botteghi, Mannes Poel, Christoph Brune,
- Abstract要約: 本稿では,DRL(Deep Reinforcement Learning)の文脈における測定データの抽象表現学習の問題点について述べる。
このレビューでは、世界の表現を学習するために使用される主要なDeep Learningツールを記述することで、DRLにおける教師なし表現学習の包括的で完全な概要を提供する。
- 参考スコア(独自算出の注目度): 1.2016264781280588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This review addresses the problem of learning abstract representations of the measurement data in the context of Deep Reinforcement Learning (DRL). While the data are often ambiguous, high-dimensional, and complex to interpret, many dynamical systems can be effectively described by a low-dimensional set of state variables. Discovering these state variables from the data is a crucial aspect for (i) improving the data efficiency, robustness, and generalization of DRL methods, (ii) tackling the curse of dimensionality, and (iii) bringing interpretability and insights into black-box DRL. This review provides a comprehensive and complete overview of unsupervised representation learning in DRL by describing the main Deep Learning tools used for learning representations of the world, providing a systematic view of the method and principles, summarizing applications, benchmarks and evaluation strategies, and discussing open challenges and future directions.
- Abstract(参考訳): 本稿では,測定データの抽象表現を深層強化学習(DRL)の文脈で学習する問題に対処する。
データはしばしば曖昧で高次元で解釈に複雑であるが、多くの力学系は低次元状態変数の集合によって効果的に記述できる。
これらの状態変数をデータから発見することは、重要な側面である。
i)DRL法のデータの効率性、堅牢性、一般化を改善すること。
二 次元の呪いに対処すること、
三 ブラックボックスDRLに解釈可能性及び洞察をもたらすこと。
このレビューでは、世界の表現を学習するための主要なDeep Learningツールを説明し、方法論と原則の体系的なビューを提供し、アプリケーション、ベンチマーク、評価戦略を要約し、オープンな課題と今後の方向性について議論することで、DRLにおける教師なし表現学習の包括的で完全な概要を提供する。
関連論文リスト
- Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - Disentangled Representation Learning [46.51815065323667]
Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、切り離すことができるモデルを学習することを目的としている。
我々は、モチベーション、定義、方法論、評価、応用、モデル設計を含む様々な側面からDRLを包括的に調査する。
論文 参考訳(メタデータ) (2022-11-21T18:14:38Z) - A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning [53.35317176453194]
データ拡張(DA)は、サンプル効率と一般化可能なポリシーを取得するために視覚的RLで広く使われている技術である。
本稿では、視覚的RLで使用されている既存の拡張技法の原則的な分類法を提案し、拡張データをどのように活用するかを詳細に議論する。
視覚的RLにおけるDAに関する最初の総合的な調査として、この研究は、この新興分野に貴重なガイダンスを提供するものと期待されている。
論文 参考訳(メタデータ) (2022-10-10T11:01:57Z) - Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.2650734930974]
半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。
本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
論文 参考訳(メタデータ) (2022-08-24T04:26:21Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning [12.485293708638292]
本稿では,動的に視点整合性を持たせることで,状態表現学習を加速することを提案する。
本稿では,多視点マルコフ決定過程 (MMDP) の定式化について述べる。
MMDP の構造に従えば,我々の手法である View-Consistent Dynamics (VCD) は,潜在空間におけるビュー-Consistent dynamics モデルをトレーニングすることによって状態表現を学習する。
論文 参考訳(メタデータ) (2022-01-18T14:28:30Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。