論文の概要: Automatic Trade-off Adaptation in Offline RL
- arxiv url: http://arxiv.org/abs/2306.09744v1
- Date: Fri, 16 Jun 2023 10:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:20:13.518751
- Title: Automatic Trade-off Adaptation in Offline RL
- Title(参考訳): オフラインRLにおける自動トレードオフ適応
- Authors: Phillip Swazinna, Steffen Udluft, Thomas Runkler
- Abstract要約: 本稿では,行動クローニングと最適性w.r.tとのトレードオフを設定するインタフェースを提案する。
専門家はこのインターフェースを使って、ポリシーの振る舞いを好みに応じて適応させ、保守主義とパフォーマンスの最適化の間に良いトレードオフを見出すことができます。
専門家の時間は重要なので、オートパイロットで方法論を拡張して、トレードオフの正しいパラメータ化を自動的に見つけ、AutoLIONと呼ぶ新しいアルゴリズムを生み出します。
- 参考スコア(独自算出の注目度): 3.1325640909772403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, offline RL algorithms have been proposed that remain adaptive at
runtime. For example, the LION algorithm \cite{lion} provides the user with an
interface to set the trade-off between behavior cloning and optimality w.r.t.
the estimated return at runtime. Experts can then use this interface to adapt
the policy behavior according to their preferences and find a good trade-off
between conservatism and performance optimization. Since expert time is
precious, we extend the methodology with an autopilot that automatically finds
the correct parameterization of the trade-off, yielding a new algorithm which
we term AutoLION.
- Abstract(参考訳): 近年,実行時の適応性を維持するオフラインRLアルゴリズムが提案されている。
例えば、ライオンのアルゴリズムである \cite{lion} は、振る舞いのクローン化と最適性の間のトレードオフを設定するインタフェースをユーザに提供する。
専門家はこのインターフェースを使って、ポリシーの振る舞いを好みに応じて適応させ、保守主義とパフォーマンス最適化のトレードオフを見出すことができます。
専門家の時間は重要なので、オートパイロットで方法論を拡張し、トレードオフの正しいパラメータ化を自動的に見つけ、AutoLIONと呼ぶ新しいアルゴリズムを生成する。
関連論文リスト
- Generalized Preference Optimization: A Unified Approach to Offline Alignment [54.97015778517253]
本稿では,一般的な凸関数のクラスによってパラメータ化されるオフライン損失の族である一般化された選好最適化(GPO)を提案する。
GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含む、優先最適化に関する統一的なビューを可能にする。
本研究は,新たなアルゴリズムツールキットと経験的洞察を実践者のアライメントに提示する。
論文 参考訳(メタデータ) (2024-02-08T15:33:09Z) - Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。
オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。
本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文 参考訳(メタデータ) (2023-02-22T11:49:12Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - On Instance-Dependent Bounds for Offline Reinforcement Learning with
Linear Function Approximation [80.86358123230757]
本稿では,Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI) というアルゴリズムを提案する。
部分的なデータカバレッジの仮定の下で、BCP-VI は最適な Q-値関数に正のギャップがあるときに、オフライン RL に対して $tildemathcalO(frac1K)$ の高速レートを得る。
これらは、アダプティブデータからの線形関数近似を持つオフラインRLに対してそれぞれ、最初の$tildemathcalO(frac1K)$boundと絶対零部分最適境界である。
論文 参考訳(メタデータ) (2022-11-23T18:50:44Z) - Offline RL Policies Should be Trained to be Adaptive [89.8580376798065]
ベイズ的意味において、オフラインRLで最適に振る舞うには暗黙のPOMDPを解く必要があることを示す。
結果として、オフラインRLの最適ポリシーは、現在の状態だけでなく、評価中にこれまで見られたすべての遷移に依存して適応されなければならない。
本稿では、この最適適応ポリシーを近似するモデルフリーアルゴリズムを提案し、オフラインRLベンチマークにおける適応ポリシーの学習の有効性を実証する。
論文 参考訳(メタデータ) (2022-07-05T17:58:33Z) - You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL [29.98260009732724]
政策評価のステップを一度だけ行うオフライン強化学習のためのベースラインアルゴリズムを提案する。
提案アルゴリズムは、D4RLオフラインRLベンチマークのサブセットにおいて、競合的かつ時折最先端のパフォーマンスを示すことを実証的に見出した。
論文 参考訳(メタデータ) (2021-10-05T19:05:47Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。