論文の概要: Between Rate-Distortion Theory & Value Equivalence in Model-Based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.02025v1
- Date: Sat, 4 Jun 2022 17:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:59:48.157430
- Title: Between Rate-Distortion Theory & Value Equivalence in Model-Based
Reinforcement Learning
- Title(参考訳): モデルベース強化学習におけるレートゆがみ理論と値同値の関係
- Authors: Dilip Arumugam and Benjamin Van Roy
- Abstract要約: 本稿では,エージェントが相変わらず最適動作を回復する環境の単純で有用な近似を合成するアルゴリズムを提案する。
我々は、この損失のある環境圧縮問題の情報理論的性質を認識し、この速度歪み理論の適切なツールを用いて、値等価性がトラクタビリティを他の難解なシーケンシャルな意思決定問題にもたらすことができるかを数学的に正確にする。
- 参考スコア(独自算出の注目度): 21.931580762349096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quintessential model-based reinforcement-learning agent iteratively
refines its estimates or prior beliefs about the true underlying model of the
environment. Recent empirical successes in model-based reinforcement learning
with function approximation, however, eschew the true model in favor of a
surrogate that, while ignoring various facets of the environment, still
facilitates effective planning over behaviors. Recently formalized as the value
equivalence principle, this algorithmic technique is perhaps unavoidable as
real-world reinforcement learning demands consideration of a simple,
computationally-bounded agent interacting with an overwhelmingly complex
environment. In this work, we entertain an extreme scenario wherein some
combination of immense environment complexity and limited agent capacity
entirely precludes identifying an exactly value-equivalent model. In light of
this, we embrace a notion of approximate value equivalence and introduce an
algorithm for incrementally synthesizing simple and useful approximations of
the environment from which an agent might still recover near-optimal behavior.
Crucially, we recognize the information-theoretic nature of this lossy
environment compression problem and use the appropriate tools of
rate-distortion theory to make mathematically precise how value equivalence can
lend tractability to otherwise intractable sequential decision-making problems.
- Abstract(参考訳): quintessential modelベースの強化学習エージェントは、環境の真の基礎となるモデルに関する見積もりや事前の信念を反復的に洗練します。
機能近似を用いたモデルベース強化学習における近年の実証的成功は、環境の様々な側面を無視しつつも、効果的な行動計画を促進するサロゲートを好んで、真のモデルを考案している。
近年、値同値原理として定式化されたこのアルゴリズムは、非常に複雑な環境と相互作用する単純で計算に拘束されたエージェントを考慮した実世界の強化学習を必要とするため、おそらく避けられない。
本研究では,環境の複雑さと限られたエージェント能力の組み合わせが,真に等価なモデルを特定することを妨げるという極端なシナリオを享受する。
これを踏まえ、近似値等価性の概念を導入し、エージェントが近い最適動作を回復する可能性のある環境の単純で有用な近似を漸進的に合成するアルゴリズムを導入する。
重要なことは、この損失のある環境圧縮問題の情報理論的性質を認識し、値の等価性がトラクタビリティを他の難解な逐次決定問題にもたらすかを数学的に正確にするために、レート歪曲理論の適切なツールを使用する。
関連論文リスト
- Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models [15.817239008727789]
本研究では,異なるドメインで生成された場合,サンプルがどのようなものであったのかを仮定した,ドメイン反事実と呼ばれる特定のタイプの因果クエリを解析する。
本研究では, 潜在構造因果モデル (SCM) の回復は, ドメイン・デファクト・デファクトを推定するために不要であることを示す。
また、モデル生成過程を単純化し、生成モデル推定を行うための理論的基盤となる実用的なアルゴリズムも開発する。
論文 参考訳(メタデータ) (2023-06-20T04:19:06Z) - Annealing Optimization for Progressive Learning with Stochastic
Approximation [0.0]
計算資源が限られているアプリケーションのニーズを満たすために設計された学習モデルを導入する。
我々は,オンラインな勾配近似アルゴリズムとして定式化されたオンラインプロトタイプベースの学習アルゴリズムを開発した。
学習モデルは、教師なし、教師なし、強化学習に使用される、解釈可能で、徐々に成長する競争的ニューラルネットワークモデルと見なすことができる。
論文 参考訳(メタデータ) (2022-09-06T21:31:01Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - Leveraging Unlabeled Data for Entity-Relation Extraction through
Probabilistic Constraint Satisfaction [54.06292969184476]
シンボリックドメイン知識の存在下でのエンティティ関係抽出の問題を研究する。
本手法では,論理文の正確な意味を捉える意味的損失を用いる。
低データ体制に焦点をあてて、セマンティックな損失がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-03-20T00:16:29Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。