Fugu-MT 論文翻訳(概要): Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization

論文の概要: Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization

arxiv url: http://arxiv.org/abs/2306.14479v1
Date: Mon, 26 Jun 2023 07:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 14:34:02.955920
Title: Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization
Title（参考訳）: 政策設計:オフライン政策最適化のための保守的テスト時間適応
Authors: Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang, Bin Wang
Abstract要約: 我々は、反復的双方向オフラインRLをオフライントレーニングフェーズから切り離し、非反復的双方向パラダイムを形成する。この非イテレーティブなパラダイムは、テストにおいて外部レベルの最適化を実行しながら、トレーニングにおいて内部レベルの最適化を実行することができます。
参考スコア（独自算出の注目度）: 18.59184927849223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we decouple the iterative bi-level offline RL from the offline training phase, forming a non-iterative bi-level paradigm and avoiding the iterative error propagation over two levels. Specifically, this non-iterative paradigm allows us to conduct inner-level optimization in training (for OOD issues), while performing outer-level optimization in testing (for reward maximizing). Naturally, such a paradigm raises three core questions that are \textit{not} fully answered by prior non-iterative offline RL counterparts like reward-conditioned policy: Q1) What information should we transfer from the inner-level to the outer-level? Q2) What should we pay attention to when exploiting the transferred information in the outer-level optimization? Q3) What are the~benefits of concurrently conducting outer-level optimization during testing? Motivated by model-based optimization~{(MBO)}, we propose DROP (\textbf{D}esign f\textbf{RO}m \textbf{P}olicies), which fully answers the above questions. Specifically, in the inner-level, DROP decomposes offline data into multiple subsets and learns an {MBO} score model~(A1). To keep safe exploitation to the score model in the outer-level, we explicitly learn a behavior embedding and introduce a conservative regularization (A2). During testing, we show that DROP permits test-time adaptation, enabling an adaptive inference across states~(A3). Empirically, we find that DROP, compared to prior non-iterative offline RL counterparts, gains an average improvement probability of more than 80\%, and achieves comparable or better performance compared to prior iterative baselines.
Abstract（参考訳）: 本研究では,反復型biレベルオフラインrlをオフライントレーニングフェーズから分離し,非イテレーティブなbiレベルパラダイムを形成し,反復型エラー伝搬を回避した。具体的には、この非イテレーティブパラダイムによって、トレーニングにおける内部レベルの最適化(ood問題)と、テストにおける外部レベルの最適化(報酬の最大化)が可能になります。当然、このようなパラダイムは、3つの中核的な疑問を提起する。それは、前回の非観念的オフラインRL(例えば報酬条件付きポリシー)によって完全に答えられる、というものである: Q1) 内部レベルから外部レベルへ移行すべき情報は何か? q2) 外部レベルの最適化において、転送情報を利用する際に注意すべきことは何だろうか? q3) テスト中に外部レベルの最適化を同時実行するメリットは何か? モデルに基づく最適化~{(MBO)}によって動機付けられたDROP(\textbf{D}esign f\textbf{RO}m \textbf{P}olicies)を提案する。具体的には、内部レベルでは、DROPはオフラインデータを複数のサブセットに分解し、{MBO}スコアモデル~(A1)を学ぶ。スコアモデルを外部レベルで安全に活用するために,動作埋め込みを明示的に学習し,保守的な正規化(A2)を導入する。テスト中、DROPはテスト時間適応を許容し、状態~(A3)間の適応推論を可能にする。実験により,従来のオフラインRLと比較して,DROPは80%以上の平均改善確率が得られ,従来の反復ベースラインと比較して同等あるいは優れた性能が得られることがわかった。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Behavior Preference Regression for Offline Reinforcement Learning [0.0]
オフライン強化学習(RL)手法は、固定データセットの軌跡のみにアクセスして最適なポリシーを学習することを目的としている。政策制約法は、報酬の最大化と政策からの逸脱の最小化とのバランスをとる最適化問題として政策学習を定式化する。オフラインRLに対する振る舞い回帰予測とペア比較のアプローチを適応する。我々は、広く使われているD4RL LocomotionとAntmazeのデータセットと、より難しいV-D4RLスイートでBPRを実証的に評価した。
論文参考訳（メタデータ） (2025-03-02T15:13:02Z)
As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。提案するBNF損失は, 対意に対照的な損失が不要となる。我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文参考訳（メタデータ） (2024-10-07T08:44:04Z)
Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文参考訳（メタデータ） (2024-05-30T10:20:55Z)
A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。 A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。 D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文参考訳（メタデータ） (2024-03-12T02:43:41Z)
Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文参考訳（メタデータ） (2023-08-07T06:27:57Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文参考訳（メタデータ） (2022-10-14T03:22:43Z)
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。 textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-05-26T19:13:55Z)
Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文参考訳（メタデータ） (2022-04-27T12:40:21Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Where is the Grass Greener? Revisiting Generalized Policy Iteration for Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文参考訳（メタデータ） (2021-07-03T11:00:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。