論文の概要: Representation-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.19922v1
- Date: Wed, 31 May 2023 14:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:51:10.552144
- Title: Representation-Driven Reinforcement Learning
- Title(参考訳): 表現駆動強化学習
- Authors: Ofir Nabati, Guy Tennenholtz and Shie Mannor
- Abstract要約: 強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
- 参考スコア(独自算出の注目度): 57.44609759155611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a representation-driven framework for reinforcement learning. By
representing policies as estimates of their expected values, we leverage
techniques from contextual bandits to guide exploration and exploitation.
Particularly, embedding a policy network into a linear feature space allows us
to reframe the exploration-exploitation problem as a
representation-exploitation problem, where good policy representations enable
optimal exploration. We demonstrate the effectiveness of this framework through
its application to evolutionary and policy gradient-based approaches, leading
to significantly improved performance compared to traditional methods. Our
framework provides a new perspective on reinforcement learning, highlighting
the importance of policy representation in determining optimal
exploration-exploitation strategies.
- Abstract(参考訳): 強化学習のための表現駆動型フレームワークを提案する。
ポリシを期待値の推定値として表現することで、コンテキストバンディットのテクニックを活用して、探索と搾取をガイドします。
特に、ポリシーネットワークを線形な特徴空間に埋め込むことで、適切なポリシー表現が最適な探索を可能にする表現探索問題として探索探索問題を再構築することができる。
我々は,このフレームワークを進化的および政策的勾配に基づくアプローチに適用することにより,従来の手法に比べて大幅に性能が向上することを示す。
本フレームワークは, 最適探査・探索戦略決定における政策表現の重要性を強調し, 強化学習の新しい視点を提供する。
関連論文リスト
- Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks [2.1332830068386217]
言語条件のセマンティックサーチに基づくオンラインサーチベースのポリシーを作成する手法を提案する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
論文 参考訳(メタデータ) (2023-12-10T16:17:00Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Towards Theoretical Understanding of Data-Driven Policy Refinement [0.0]
本稿では、特に安全クリティカルなアプリケーションのために設計された強化学習におけるデータ駆動型ポリシー改善のアプローチを提案する。
我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。
我々は、収束性、ロバスト性境界、一般化誤差、モデルミスマッチに対するレジリエンスなど、我々のアプローチの重要な理論的性質を解明する一連の定理を提示する。
論文 参考訳(メタデータ) (2023-05-11T13:36:21Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Low-Dimensional State and Action Representation Learning with MDP
Homomorphism Metrics [1.5293427903448022]
深層強化学習(Deep Reinforcement Learning)は、高次元観察から直接複雑な問題を解く能力を示している。
エンドツーエンドの設定では、強化学習アルゴリズムはサンプリング効率が良くなく、長いトレーニング時間と大量のデータを必要とする。
状態と行動表現を利用して高次元問題を低次元に変換するサンプル効率強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T16:26:04Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。