論文の概要: On the Generalization of Representations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.00543v1
- Date: Tue, 1 Mar 2022 15:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:00:25.395496
- Title: On the Generalization of Representations in Reinforcement Learning
- Title(参考訳): 強化学習における表現の一般化について
- Authors: Charline Le Lan, Stephen Tu, Adam Oberman, Rishabh Agarwal, Marc
G.Bellemare
- Abstract要約: 特定の状態表現から生じる一般化誤差に関する情報的境界を提供する。
我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
- 参考スコア(独自算出の注目度): 32.303656009679045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, state representations are used to tractably deal
with large problem spaces. State representations serve both to approximate the
value function with few parameters, but also to generalize to newly encountered
states. Their features may be learned implicitly (as part of a neural network)
or explicitly (for example, the successor representation of
\citet{dayan1993improving}). While the approximation properties of
representations are reasonably well-understood, a precise characterization of
how and when these representations generalize is lacking. In this work, we
address this gap and provide an informative bound on the generalization error
arising from a specific state representation. This bound is based on the notion
of effective dimension which measures the degree to which knowing the value at
one state informs the value at other states. Our bound applies to any state
representation and quantifies the natural tension between representations that
generalize well and those that approximate well. We complement our theoretical
results with an empirical survey of classic representation learning methods
from the literature and results on the Arcade Learning Environment, and find
that the generalization behaviour of learned representations is well-explained
by their effective dimension.
- Abstract(参考訳): 強化学習では、状態表現は大きな問題空間をうまく扱うために用いられる。
状態表現は、値関数をほとんどパラメータで近似するだけでなく、新たに遭遇した状態に一般化する。
これらの特徴は暗黙的に(ニューラルネットワークの一部として)、あるいは明示的に(例えば \citet{dayan 1993improving} の後継表現など)学習することができる。
表現の近似特性は合理的によく理解されているが、これらの表現の一般化の方法と時期の正確な特徴は欠如している。
本研究では、このギャップに対処し、特定の状態表現から生じる一般化誤差について情報的境界を与える。
この境界は、ある状態の値を知ることが他の状態の値を知らせる度合いを測定する有効次元の概念に基づいている。
我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
本論は,古典的表現学習手法をアーケード学習環境上で実証的に調査し,学習した表現の一般化行動がそれらの有効次元によって明確に説明されていることを明らかにする。
関連論文リスト
- Learning telic-controllable state representations [3.072340427031969]
本稿では,有界エージェントにおける状態表現学習のための新しい計算フレームワークを提案する。
我々の研究は、自然エージェントと人工エージェントの目標指向状態表現学習に関する統一的な理論的視点を推し進めている。
論文 参考訳(メタデータ) (2024-06-20T16:38:25Z) - Representations as Language: An Information-Theoretic Framework for Interpretability [7.2129390689756185]
大規模ニューラルモデルは、幅広い言語的タスクにまたがる印象的なパフォーマンスを示す。
それにもかかわらず、それらは主にブラックボックスであり、解釈が難しい入力のベクトル表現を誘導する。
本稿では,モデルが文から表現へ学習するマッピングを,言語の一種として表現する,解釈可能性に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-04T16:14:00Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Pointwise Representational Similarity [14.22332335495585]
ポイントワイド正規化カーネルアライメント (Pointwise Normalized Kernel Alignment, PNKA) は、個々の入力が2つの表現空間でどのように表現されるかを測定する尺度である。
我々は、(a)誤分類される可能性のある入力例、(b)レイヤ内の(個別の)ニューロンによって符号化された概念、(c)学習された表現に対する公平な介入の効果をより深く理解するために、PNKAをどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-05-30T09:40:08Z) - Desiderata for Representation Learning: A Causal Perspective [104.3711759578494]
我々は表現学習の因果的視点を採り、非純粋性と効率性(教師なし表現学習)と非教師なし表現学習(教師なし表現学習)を定式化する。
これは、関心のデシダータを満たす程度を計算可能なメトリクスで評価し、単一の観測データセットから不純物や不整合表現を学習する。
論文 参考訳(メタデータ) (2021-09-08T17:33:54Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z) - Weakly-Supervised Disentanglement Without Compromises [53.55580957483103]
インテリジェントエージェントは、環境の変化を観察することで、有用な表現を学べるべきである。
変動の要因の少なくとも1つを共有する非I.d.画像のペアとしてそのような観測をモデル化する。
我々は,どの因子が変化したかのみを知るだけで,非絡み合った表現を学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。