論文の概要: Design from Policies: Conservative Test-Time Adaptation for Offline
Policy Optimization
- arxiv url: http://arxiv.org/abs/2306.14479v2
- Date: Sat, 28 Oct 2023 10:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 20:59:56.193578
- Title: Design from Policies: Conservative Test-Time Adaptation for Offline
Policy Optimization
- Title(参考訳): 政策設計:オフライン政策最適化のための保守的テスト時間適応
- Authors: Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang,
Bin Wang
- Abstract要約: オフライントレーニングフェーズからオフラインRL(値推定とポリシ抽出)を分離し,非イテレーティブな双方向パラダイムを形成する。
この非イテレーティブなパラダイムは、テストにおいて外部レベルの最適化(政治抽出)を行いながら、トレーニングにおいて内部レベルの最適化(価値推定)を行うことを可能にする。
- 参考スコア(独自算出の注目度): 30.17751989299339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we decouple the iterative bi-level offline RL (value estimation
and policy extraction) from the offline training phase, forming a non-iterative
bi-level paradigm and avoiding the iterative error propagation over two levels.
Specifically, this non-iterative paradigm allows us to conduct inner-level
optimization (value estimation) in training, while performing outer-level
optimization (policy extraction) in testing. Naturally, such a paradigm raises
three core questions that are not fully answered by prior non-iterative offline
RL counterparts like reward-conditioned policy: (q1) What information should we
transfer from the inner-level to the outer-level? (q2) What should we pay
attention to when exploiting the transferred information for safe/confident
outer-level optimization? (q3) What are the benefits of concurrently conducting
outer-level optimization during testing? Motivated by model-based optimization
(MBO), we propose DROP (design from policies), which fully answers the above
questions. Specifically, in the inner-level, DROP decomposes offline data into
multiple subsets, and learns an MBO score model (a1). To keep safe exploitation
to the score model in the outer-level, we explicitly learn a behavior embedding
and introduce a conservative regularization (a2). During testing, we show that
DROP permits deployment adaptation, enabling an adaptive inference across
states (a3). Empirically, we evaluate DROP on various tasks, showing that DROP
gains comparable or better performance compared to prior methods.
- Abstract(参考訳): 本研究では,反復的2レベルオフラインrl(価値推定とポリシ抽出)をオフライントレーニングフェーズから切り離し,非イテレーティブな2レベルパラダイムを形成し,反復的エラー伝搬を2レベルにわたって回避する。
具体的には、この非イテレーティブパラダイムは、テストで外部レベルの最適化(ポリシ抽出)を実行しながら、トレーニングにおいて内部レベルの最適化(値推定)を行うことを可能にします。
当然、このようなパラダイムは、報酬条件付きポリシーのような、前回の非決定的なオフラインRLの対応によって完全に答えられていない3つの中核的な疑問を提起する。
(q2)
安全な、信頼できる外部レベルの最適化のために転送された情報を利用する場合、注意すべきことは何か?
(q3)
テスト中に外部レベルの最適化を同時実行するメリットは何でしょう?
モデルベース最適化(mbo)に動機づけられ、上記の質問に答えるdrop(design from policy)を提案します。
具体的には、内部レベルでは、DROPはオフラインデータを複数のサブセットに分解し、MBOスコアモデル(a1)を学ぶ。
スコアモデルを外部レベルで安全に活用するために,動作の埋め込みを明示的に学習し,保守的な正規化(a2)を導入する。
テスト中、DROPはデプロイメント適応を可能にし、状態間の適応推論を可能にする(a3)。
実験により,各タスクにおけるDROPの評価を行い,従来のメソッドと比較してDROPの性能が同等か向上したことを示す。
関連論文リスト
- As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2024-10-07T08:44:04Z) - Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。
既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。
軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-07T06:27:57Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。