論文の概要: Dueling RL: Reinforcement Learning with Trajectory Preferences
- arxiv url: http://arxiv.org/abs/2111.04850v1
- Date: Mon, 8 Nov 2021 22:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 00:17:13.325025
- Title: Dueling RL: Reinforcement Learning with Trajectory Preferences
- Title(参考訳): dueling RL: Trajectory Preferencesを用いた強化学習
- Authors: Aldo Pacchiano, Aadirupa Saha, Jonathan Lee
- Abstract要約: 好みに基づく強化学習(PbRL)の問題を考える。
従来の強化学習とは異なり、エージェントは1ビット(0/1)の好みでのみフィードバックを受け取る。
本稿では,PbRL問題に非マルコフ的報酬を伴う形式的枠組みを定め,次元$d$の一般化線形モデルにより軌道の選好を符号化する。
- 参考スコア(独自算出の注目度): 30.011965198486635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of preference based reinforcement learning (PbRL),
where, unlike traditional reinforcement learning, an agent receives feedback
only in terms of a 1 bit (0/1) preference over a trajectory pair instead of
absolute rewards for them. The success of the traditional RL framework
crucially relies on the underlying agent-reward model, which, however, depends
on how accurately a system designer can express an appropriate reward function
and often a non-trivial task. The main novelty of our framework is the ability
to learn from preference-based trajectory feedback that eliminates the need to
hand-craft numeric reward models. This paper sets up a formal framework for the
PbRL problem with non-markovian rewards, where the trajectory preferences are
encoded by a generalized linear model of dimension $d$. Assuming the transition
model is known, we then propose an algorithm with almost optimal regret
guarantee of $\tilde {\mathcal{O}}\left( SH d \log (T / \delta) \sqrt{T}
\right)$. We further, extend the above algorithm to the case of unknown
transition dynamics, and provide an algorithm with near optimal regret
guarantee $\widetilde{\mathcal{O}}((\sqrt{d} + H^2 + |\mathcal{S}|)\sqrt{dT}
+\sqrt{|\mathcal{S}||\mathcal{A}|TH} )$. To the best of our knowledge, our work
is one of the first to give tight regret guarantees for preference based RL
problems with trajectory preferences.
- Abstract(参考訳): 従来の強化学習とは異なり、エージェントは、絶対的な報酬ではなく、軌道ペア上の1ビット (0/1) の選好だけでフィードバックを受ける。
従来のrlフレームワークの成功は、基本となるエージェント・リワードモデルに依存しているが、システム設計者が適切な報酬関数と非自明なタスクをいかに正確に表現できるかに依存する。
我々のフレームワークの目新しいところは、手書きの数値報酬モデルを必要としない好みに基づく軌道フィードバックから学ぶ能力である。
本稿では,PbRL問題に非マルコフ的報酬を伴う形式的枠組みを定め,次元$d$の一般化線形モデルにより軌道の選好を符号化する。
遷移モデルが知られていると仮定すると、$\tilde {\mathcal{O}}\left( SH d \log (T / \delta) \sqrt{T} \right)$ のほぼ最適な後悔保証を持つアルゴリズムを提案する。
さらに、上記のアルゴリズムを未知遷移ダイナミクスの場合には拡張し、ほぼ最適の後悔を保証したアルゴリズム$\widetilde{\mathcal{o}}((\sqrt{d} + h^2 + |\mathcal{s}|)\sqrt{dt} +\sqrt{|\mathcal{s}||\mathcal{a}|th} )$を提供する。
我々の知る限りでは、我々の研究は軌道選好を伴う選好に基づくrl問題に対して厳密な後悔を与える最初の1つです。
関連論文リスト
- Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Is RLHF More Difficult than Standard RL? [31.972393805014903]
ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。
理論的には、幅広い選好モデルに対して、我々は、報酬に基づくRLのアルゴリズムと技法を直接的に解き、少ないか、余分なコストで解決できることを証明している。
論文 参考訳(メタデータ) (2023-06-25T03:18:15Z) - Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。
報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。
提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文 参考訳(メタデータ) (2023-01-30T12:51:13Z) - Bridging Distributional and Risk-sensitive Reinforcement Learning with
Provable Regret Bounds [24.571530193140916]
エントロピーリスク尺度(EntRM)が目的である有限エピソードマルコフ決定過程を考察する。
モデルフリーとモデルベースを含む2つの異なるスキームを用いて最適化を実装する2つの新しいDRLアルゴリズムを提案する。
いずれも$tildemathcalO(fracexp(|beta|H)-1|beta|HsqrtS2AK)$ regret upper bound, where $S$, $A$, $K$, $H$は数値を表す。
論文 参考訳(メタデータ) (2022-10-25T14:30:48Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。