論文の概要: Bridging State and History Representations: Understanding
Self-Predictive RL
- arxiv url: http://arxiv.org/abs/2401.08898v2
- Date: Wed, 13 Mar 2024 00:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:27:24.217580
- Title: Bridging State and History Representations: Understanding
Self-Predictive RL
- Title(参考訳): ブリッジング国家と歴史表現:理解
自己予測RL
- Authors: Tianwei Ni, Benjamin Eysenbach, Erfan Seyedsalehi, Michel Ma, Clement
Gehring, Aditya Mahajan, Pierre-Luc Bacon
- Abstract要約: マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある
状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。
我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
- 参考スコア(独自算出の注目度): 26.01435695133671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representations are at the core of all deep reinforcement learning (RL)
methods for both Markov decision processes (MDPs) and partially observable
Markov decision processes (POMDPs). Many representation learning methods and
theoretical frameworks have been developed to understand what constitutes an
effective representation. However, the relationships between these methods and
the shared properties among them remain unclear. In this paper, we show that
many of these seemingly distinct methods and frameworks for state and history
abstractions are, in fact, based on a common idea of self-predictive
abstraction. Furthermore, we provide theoretical insights into the widely
adopted objectives and optimization, such as the stop-gradient technique, in
learning self-predictive representations. These findings together yield a
minimalist algorithm to learn self-predictive representations for states and
histories. We validate our theories by applying our algorithm to standard MDPs,
MDPs with distractors, and POMDPs with sparse rewards. These findings culminate
in a set of preliminary guidelines for RL practitioners.
- Abstract(参考訳): 表現は、マルコフ決定プロセス(MDP)と部分的に観察可能なマルコフ決定プロセス(POMDP)の両方のための、すべての深層強化学習(RL)手法の中核にある。
効果的な表現を構成するものを理解するために,多くの表現学習手法や理論フレームワークが開発されている。
しかし,これらの方法と共有特性の関係はいまだ不明である。
本稿では、状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くが、実際、自己予測的抽象化の共通概念に基づいていることを示す。
さらに、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的知見を提供する。
これらの発見は、状態と歴史の自己予測表現を学習するための最小限のアルゴリズムをもたらす。
我々は,我々の理論を,標準のMDP,イントラクタ付きMDP,スパース報酬付きPMDPに適用することで検証する。
これらの知見は, RL実践者のための予備的ガイドラインのセットにまとめられる。
関連論文リスト
- Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Bootstrapped Representations in Reinforcement Learning [44.49675960752777]
強化学習(RL)では、状態表現は大きな状態空間や連続状態空間を扱うための鍵となる。
時間差分学習により学習した状態表現の理論的特徴について述べる。
政策評価におけるこれらの表現の有効性について述べるとともに,理論解析を用いて新しい補助学習ルールを設計する。
論文 参考訳(メタデータ) (2023-06-16T20:14:07Z) - On learning history based policies for controlling Markov decision
processes [44.17941122294582]
本稿では,MDPの制御を学習するRLアルゴリズムの動作を研究するための理論的枠組みを提案する。
本研究では,一連の連続制御タスクにおいて,その効果を数値的に評価する。
論文 参考訳(メタデータ) (2022-11-06T02:47:55Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Evaluation of Self-taught Learning-based Representations for Facial
Emotion Recognition [62.30451764345482]
この研究は、顔の感情認識のための自己学習の概念を通じて得られた教師なし表現を生成するための様々な戦略を記述する。
このアイデアは、オートエンコーダの初期化、アーキテクチャ、トレーニングデータを変化させることで、多様性を促進する補完的な表現を作ることである。
Jaffe と Cohn-Kanade のデータセットに対する残余のサブジェクトアウトプロトコルによる実験結果から,提案した多種多様な表現に基づく FER 手法が最先端のアプローチと好適に比較できることが示唆された。
論文 参考訳(メタデータ) (2022-04-26T22:48:15Z) - The Partially Observable History Process [17.08883385550155]
我々は、強化学習のための部分観測可能歴史過程(POHP)の定式化を導入する。
POHPは、単一のエージェントのアクションと観察を中心にして、他のプレイヤーの存在を抽象化する。
私たちのフォーマリズムは、アルゴリズムを設計するための合理化されたインターフェースを提供する。
論文 参考訳(メタデータ) (2021-11-15T22:00:14Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。