論文の概要: Reinforcement Learning via Fenchel-Rockafellar Duality
- arxiv url: http://arxiv.org/abs/2001.01866v2
- Date: Thu, 9 Jan 2020 19:08:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:06:16.854475
- Title: Reinforcement Learning via Fenchel-Rockafellar Duality
- Title(参考訳): Fenchel-Rockafellar双対による強化学習
- Authors: Ofir Nachum, Bo Dai
- Abstract要約: 凸双対性の基本概念を概観し、非常に一般的で非常に有用なフェンシェル・ロッカフェラー双対性に焦点をあてる。
この双対性は、政策評価や最適化、オンラインまたはオフライン学習、割引または未公表の報酬など、さまざまな強化学習設定にどのように適用できるかを要約する。
- 参考スコア(独自算出の注目度): 97.86417365464068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We review basic concepts of convex duality, focusing on the very general and
supremely useful Fenchel-Rockafellar duality. We summarize how this duality may
be applied to a variety of reinforcement learning (RL) settings, including
policy evaluation or optimization, online or offline learning, and discounted
or undiscounted rewards. The derivations yield a number of intriguing results,
including the ability to perform policy evaluation and on-policy policy
gradient with behavior-agnostic offline data and methods to learn a policy via
max-likelihood optimization. Although many of these results have appeared
previously in various forms, we provide a unified treatment and perspective on
these results, which we hope will enable researchers to better use and apply
the tools of convex duality to make further progress in RL.
- Abstract(参考訳): 凸双対性(convex duality)の基本的な概念を概観し,フェンシェル・ロカフェラー双対性に焦点をあてた。
この双対性は、政策評価や最適化、オンラインまたはオフライン学習、割引または未公表の報酬を含む様々な強化学習(RL)設定にどのように適用できるかを要約する。
この導出は、行動非依存なオフラインデータでポリシー評価とオンポリシーポリシーグラデーションを実行する能力や、max-likelihood最適化を通じてポリシーを学ぶ方法など、興味深い結果をもたらす。
これらの結果の多くはこれまで様々な形で現れてきたが、これらの結果に対する統一的な治療と展望を提供しており、研究者が凸双対性のツールをよりよく利用し、活用してRLをさらに進歩させることを願っている。
関連論文リスト
- Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Combing Policy Evaluation and Policy Improvement in a Unified
f-Divergence Framework [33.90259939664709]
学習方針とサンプリング方針のf分割について検討し、f-divergence Reinforcement Learning(FRL)と呼ばれる新しいDRLフレームワークを導出する。
FRL フレームワークは,1) f-divergence によって政策評価と政策改善プロセスを同時に導出すること,2) 値関数の過大評価問題を緩和すること,の2つの利点を実現する。
論文 参考訳(メタデータ) (2021-09-24T10:20:46Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。