論文の概要: A Distributional Analogue to the Successor Representation
- arxiv url: http://arxiv.org/abs/2402.08530v1
- Date: Tue, 13 Feb 2024 15:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:52:46.436112
- Title: A Distributional Analogue to the Successor Representation
- Title(参考訳): 継承者表現の分布的アナローグ
- Authors: Harley Wiltzer and Jesse Farebrother and Arthur Gretton and Yunhao
Tang and Andr\'e Barreto and Will Dabney and Marc G. Bellemare and Mark
Rowland
- Abstract要約: 本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
- 参考スコア(独自算出の注目度): 53.03619419915546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper contributes a new approach for distributional reinforcement
learning which elucidates a clean separation of transition structure and reward
in the learning process. Analogous to how the successor representation (SR)
describes the expected consequences of behaving according to a given policy,
our distributional successor measure (SM) describes the distributional
consequences of this behaviour. We formulate the distributional SM as a
distribution over distributions and provide theory connecting it with
distributional and model-based reinforcement learning. Moreover, we propose an
algorithm that learns the distributional SM from data by minimizing a two-level
maximum mean discrepancy. Key to our method are a number of algorithmic
techniques that are independently valuable for learning generative models of
state. As an illustration of the usefulness of the distributional SM, we show
that it enables zero-shot risk-sensitive policy evaluation in a way that was
not previously possible.
- Abstract(参考訳): 本稿では,分布強化学習に対する新しいアプローチを提案し,学習過程における遷移構造と報酬のクリーンな分離を解明する。
後継表現(SR)が,所与の方針に従って行動の期待結果を記述するのに似て,我々の分散後継尺度(SM)は,この行動の分布結果を記述する。
分布SMを分布上の分布として定式化し、分布とモデルに基づく強化学習を結びつける理論を提供する。
さらに,2レベル最大平均差を最小化し,データから分布smを学習するアルゴリズムを提案する。
本手法の鍵となるのは,状態生成モデル学習に独立して有用なアルゴリズム手法である。
分布SMの有用性の図示として,従来は不可能であったゼロショットリスク感応政策評価を可能にすることを示す。
関連論文リスト
- Distribution-Dependent Rates for Multi-Distribution Learning [26.38831409926518]
最近のマルチディストリビューション学習フレームワークは、環境との動的相互作用において、この目的に対処する。
我々は, MDL体制における分布依存性の保証を行い, 最適値以下の差でスケールし, その結果, 試料サイズへの依存度が向上することを示した。
適応型楽観的アルゴリズム LCB-DR を考案し,マルチアームバンディット文学における均一性と楽観的アロケーションのコントラストを反映した。
論文 参考訳(メタデータ) (2023-12-20T15:50:16Z) - Personalized Trajectory Prediction via Distribution Discrimination [78.69458579657189]
トラリミー予測は将来の力学のマルチモーダルな性質を捉えるジレンマと対立する。
本研究では,パーソナライズされた動作パターンを予測するDisDisDis(Disdis)手法を提案する。
本手法は,プラグイン・アンド・プレイモジュールとして既存のマルチモーダル予測モデルと統合することができる。
論文 参考訳(メタデータ) (2021-07-29T17:42:12Z) - Robust Generalization despite Distribution Shift via Minimum
Discriminating Information [46.164498176119665]
我々は、トレーニングデータに加えて、シフトしたテスト分布に関する部分的な構造的知識を持つモデリングフレームワークを導入する。
我々は、利用可能な事前知識を埋め込むために、最小限の識別情報の原則を用いる。
未知のシフト分布に関する明示的な一般化境界を得る。
論文 参考訳(メタデータ) (2021-06-08T15:25:35Z) - A Brief Introduction to Generative Models [8.031257560764336]
我々は、機械学習の中心課題として生成モデリングを導入し、動機づける。
KL-発散の最小化としてどのように解釈できるかを概説する。
本稿では,推定分布と実データ分布の差異を考察する代替逆アプローチを検討する。
論文 参考訳(メタデータ) (2021-02-27T16:49:41Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。