論文の概要: Design from Policies: Conservative Test-Time Adaptation for Offline
Policy Optimization
- arxiv url: http://arxiv.org/abs/2306.14479v2
- Date: Sat, 28 Oct 2023 10:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:59:56.193578
- Title: Design from Policies: Conservative Test-Time Adaptation for Offline
Policy Optimization
- Title(参考訳): 政策設計:オフライン政策最適化のための保守的テスト時間適応
- Authors: Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang,
Bin Wang
- Abstract要約: オフライントレーニングフェーズからオフラインRL(値推定とポリシ抽出)を分離し,非イテレーティブな双方向パラダイムを形成する。
この非イテレーティブなパラダイムは、テストにおいて外部レベルの最適化(政治抽出)を行いながら、トレーニングにおいて内部レベルの最適化(価値推定)を行うことを可能にする。
- 参考スコア(独自算出の注目度): 30.17751989299339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we decouple the iterative bi-level offline RL (value estimation
and policy extraction) from the offline training phase, forming a non-iterative
bi-level paradigm and avoiding the iterative error propagation over two levels.
Specifically, this non-iterative paradigm allows us to conduct inner-level
optimization (value estimation) in training, while performing outer-level
optimization (policy extraction) in testing. Naturally, such a paradigm raises
three core questions that are not fully answered by prior non-iterative offline
RL counterparts like reward-conditioned policy: (q1) What information should we
transfer from the inner-level to the outer-level? (q2) What should we pay
attention to when exploiting the transferred information for safe/confident
outer-level optimization? (q3) What are the benefits of concurrently conducting
outer-level optimization during testing? Motivated by model-based optimization
(MBO), we propose DROP (design from policies), which fully answers the above
questions. Specifically, in the inner-level, DROP decomposes offline data into
multiple subsets, and learns an MBO score model (a1). To keep safe exploitation
to the score model in the outer-level, we explicitly learn a behavior embedding
and introduce a conservative regularization (a2). During testing, we show that
DROP permits deployment adaptation, enabling an adaptive inference across
states (a3). Empirically, we evaluate DROP on various tasks, showing that DROP
gains comparable or better performance compared to prior methods.
- Abstract(参考訳): 本研究では,反復的2レベルオフラインrl(価値推定とポリシ抽出)をオフライントレーニングフェーズから切り離し,非イテレーティブな2レベルパラダイムを形成し,反復的エラー伝搬を2レベルにわたって回避する。
具体的には、この非イテレーティブパラダイムは、テストで外部レベルの最適化(ポリシ抽出)を実行しながら、トレーニングにおいて内部レベルの最適化(値推定)を行うことを可能にします。
当然、このようなパラダイムは、報酬条件付きポリシーのような、前回の非決定的なオフラインRLの対応によって完全に答えられていない3つの中核的な疑問を提起する。
(q2)
安全な、信頼できる外部レベルの最適化のために転送された情報を利用する場合、注意すべきことは何か?
(q3)
テスト中に外部レベルの最適化を同時実行するメリットは何でしょう?
モデルベース最適化(mbo)に動機づけられ、上記の質問に答えるdrop(design from policy)を提案します。
具体的には、内部レベルでは、DROPはオフラインデータを複数のサブセットに分解し、MBOスコアモデル(a1)を学ぶ。
スコアモデルを外部レベルで安全に活用するために,動作の埋め込みを明示的に学習し,保守的な正規化(a2)を導入する。
テスト中、DROPはデプロイメント適応を可能にし、状態間の適応推論を可能にする(a3)。
実験により,各タスクにおけるDROPの評価を行い,従来のメソッドと比較してDROPの性能が同等か向上したことを示す。
関連論文リスト
- Advantage-Aware Policy Optimization for Offline Reinforcement Learning [31.76484811491062]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダ(CVAE)を使用して、相互に絡み合った行動ポリシーの動作分布を歪めている。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験は、A2POが最先端のデータセットよりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。
既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。
軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-07T06:27:57Z) - ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive
Advantages [41.30585319670119]
本稿では, アクター批判的深層強化学習におけるベイズ近似への効果的かつ実践的なステップを紹介する。
我々は、加法項が値関数のリプシッツ定数に比例して有界であることを示し、これは批判重みのスペクトル正規化の理論的基礎を提供する。
我々は,MuJoCo連続制御ベンチマークにおいて,PPO,SAC,TD3の中央値および中間値の平均値に対する有意な改善を示した。
論文 参考訳(メタデータ) (2023-06-02T11:37:22Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。