論文の概要: Design from Policies: Conservative Test-Time Adaptation for Offline
Policy Optimization
- arxiv url: http://arxiv.org/abs/2306.14479v1
- Date: Mon, 26 Jun 2023 07:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:34:02.955920
- Title: Design from Policies: Conservative Test-Time Adaptation for Offline
Policy Optimization
- Title(参考訳): 政策設計:オフライン政策最適化のための保守的テスト時間適応
- Authors: Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang,
Bin Wang
- Abstract要約: 我々は、反復的双方向オフラインRLをオフライントレーニングフェーズから切り離し、非反復的双方向パラダイムを形成する。
この非イテレーティブなパラダイムは、テストにおいて外部レベルの最適化を実行しながら、トレーニングにおいて内部レベルの最適化を実行することができます。
- 参考スコア(独自算出の注目度): 18.59184927849223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we decouple the iterative bi-level offline RL from the offline
training phase, forming a non-iterative bi-level paradigm and avoiding the
iterative error propagation over two levels. Specifically, this non-iterative
paradigm allows us to conduct inner-level optimization in training (for OOD
issues), while performing outer-level optimization in testing (for reward
maximizing). Naturally, such a paradigm raises three core questions that are
\textit{not} fully answered by prior non-iterative offline RL counterparts like
reward-conditioned policy: Q1) What information should we transfer from the
inner-level to the outer-level? Q2) What should we pay attention to when
exploiting the transferred information in the outer-level optimization? Q3)
What are the~benefits of concurrently conducting outer-level optimization
during testing? Motivated by model-based optimization~{(MBO)}, we propose DROP
(\textbf{D}esign f\textbf{RO}m \textbf{P}olicies), which fully answers the
above questions. Specifically, in the inner-level, DROP decomposes offline data
into multiple subsets and learns an {MBO} score model~(A1). To keep safe
exploitation to the score model in the outer-level, we explicitly learn a
behavior embedding and introduce a conservative regularization (A2). During
testing, we show that DROP permits test-time adaptation, enabling an adaptive
inference across states~(A3). Empirically, we find that DROP, compared to prior
non-iterative offline RL counterparts, gains an average improvement probability
of more than 80\%, and achieves comparable or better performance compared to
prior iterative baselines.
- Abstract(参考訳): 本研究では,反復型biレベルオフラインrlをオフライントレーニングフェーズから分離し,非イテレーティブなbiレベルパラダイムを形成し,反復型エラー伝搬を回避した。
具体的には、この非イテレーティブパラダイムによって、トレーニングにおける内部レベルの最適化(ood問題)と、テストにおける外部レベルの最適化(報酬の最大化)が可能になります。
当然、このようなパラダイムは、3つの中核的な疑問を提起する。それは、前回の非観念的オフラインRL(例えば報酬条件付きポリシー)によって完全に答えられる、というものである: Q1) 内部レベルから外部レベルへ移行すべき情報は何か?
q2) 外部レベルの最適化において、転送情報を利用する際に注意すべきことは何だろうか?
q3) テスト中に外部レベルの最適化を同時実行するメリットは何か?
モデルに基づく最適化~{(MBO)}によって動機付けられたDROP(\textbf{D}esign f\textbf{RO}m \textbf{P}olicies)を提案する。
具体的には、内部レベルでは、DROPはオフラインデータを複数のサブセットに分解し、{MBO}スコアモデル~(A1)を学ぶ。
スコアモデルを外部レベルで安全に活用するために,動作埋め込みを明示的に学習し,保守的な正規化(A2)を導入する。
テスト中、DROPはテスト時間適応を許容し、状態~(A3)間の適応推論を可能にする。
実験により,従来のオフラインRLと比較して,DROPは80%以上の平均改善確率が得られ,従来の反復ベースラインと比較して同等あるいは優れた性能が得られることがわかった。
関連論文リスト
- As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2024-10-07T08:44:04Z) - Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。
既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。
軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-07T06:27:57Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy
Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。
畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文 参考訳(メタデータ) (2022-04-27T12:40:21Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。