Fugu-MT 論文翻訳(概要): Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization

論文の概要: Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization

arxiv url: http://arxiv.org/abs/2306.14479v2
Date: Sat, 28 Oct 2023 10:31:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 20:59:56.193578
Title: Design from Policies: Conservative Test-Time Adaptation for Offline Policy Optimization
Title（参考訳）: 政策設計:オフライン政策最適化のための保守的テスト時間適応
Authors: Jinxin Liu, Hongyin Zhang, Zifeng Zhuang, Yachen Kang, Donglin Wang, Bin Wang
Abstract要約: オフライントレーニングフェーズからオフラインRL(値推定とポリシ抽出)を分離し,非イテレーティブな双方向パラダイムを形成する。この非イテレーティブなパラダイムは、テストにおいて外部レベルの最適化(政治抽出)を行いながら、トレーニングにおいて内部レベルの最適化(価値推定)を行うことを可能にする。
参考スコア（独自算出の注目度）: 30.17751989299339
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we decouple the iterative bi-level offline RL (value estimation and policy extraction) from the offline training phase, forming a non-iterative bi-level paradigm and avoiding the iterative error propagation over two levels. Specifically, this non-iterative paradigm allows us to conduct inner-level optimization (value estimation) in training, while performing outer-level optimization (policy extraction) in testing. Naturally, such a paradigm raises three core questions that are not fully answered by prior non-iterative offline RL counterparts like reward-conditioned policy: (q1) What information should we transfer from the inner-level to the outer-level? (q2) What should we pay attention to when exploiting the transferred information for safe/confident outer-level optimization? (q3) What are the benefits of concurrently conducting outer-level optimization during testing? Motivated by model-based optimization (MBO), we propose DROP (design from policies), which fully answers the above questions. Specifically, in the inner-level, DROP decomposes offline data into multiple subsets, and learns an MBO score model (a1). To keep safe exploitation to the score model in the outer-level, we explicitly learn a behavior embedding and introduce a conservative regularization (a2). During testing, we show that DROP permits deployment adaptation, enabling an adaptive inference across states (a3). Empirically, we evaluate DROP on various tasks, showing that DROP gains comparable or better performance compared to prior methods.
Abstract（参考訳）: 本研究では,反復的2レベルオフラインrl(価値推定とポリシ抽出)をオフライントレーニングフェーズから切り離し,非イテレーティブな2レベルパラダイムを形成し,反復的エラー伝搬を2レベルにわたって回避する。具体的には、この非イテレーティブパラダイムは、テストで外部レベルの最適化(ポリシ抽出)を実行しながら、トレーニングにおいて内部レベルの最適化(値推定)を行うことを可能にします。当然、このようなパラダイムは、報酬条件付きポリシーのような、前回の非決定的なオフラインRLの対応によって完全に答えられていない3つの中核的な疑問を提起する。 (q2) 安全な、信頼できる外部レベルの最適化のために転送された情報を利用する場合、注意すべきことは何か? (q3) テスト中に外部レベルの最適化を同時実行するメリットは何でしょう? モデルベース最適化(mbo)に動機づけられ、上記の質問に答えるdrop(design from policy)を提案します。具体的には、内部レベルでは、DROPはオフラインデータを複数のサブセットに分解し、MBOスコアモデル(a1)を学ぶ。スコアモデルを外部レベルで安全に活用するために,動作の埋め込みを明示的に学習し,保守的な正規化(a2)を導入する。テスト中、DROPはデプロイメント適応を可能にし、状態間の適応推論を可能にする(a3)。実験により,各タスクにおけるDROPの評価を行い,従来のメソッドと比較してDROPの性能が同等か向上したことを示す。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Behavior Preference Regression for Offline Reinforcement Learning [0.0]
オフライン強化学習(RL)手法は、固定データセットの軌跡のみにアクセスして最適なポリシーを学習することを目的としている。政策制約法は、報酬の最大化と政策からの逸脱の最小化とのバランスをとる最適化問題として政策学習を定式化する。オフラインRLに対する振る舞い回帰予測とペア比較のアプローチを適応する。我々は、広く使われているD4RL LocomotionとAntmazeのデータセットと、より難しいV-D4RLスイートでBPRを実証的に評価した。
論文参考訳（メタデータ） (2025-03-02T15:13:02Z)
As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。提案するBNF損失は, 対意に対照的な損失が不要となる。我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文参考訳（メタデータ） (2024-10-07T08:44:04Z)
Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文参考訳（メタデータ） (2024-05-30T10:20:55Z)
A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。 A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。 D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文参考訳（メタデータ） (2024-03-12T02:43:41Z)
Non-Convex Bilevel Optimization with Time-Varying Objective Functions [57.299128109226025]
本稿では,時間変化の可能なオンライン二段階最適化を提案し,エージェントがオンラインデータを用いて決定を継続的に更新する。既存のアルゴリズムと比較して、SOBOWは計算効率が良く、以前の関数を知る必要がない。軽度条件下では,SOBOWはサブリニアな局所的後悔を達成できることを示す。
論文参考訳（メタデータ） (2023-08-07T06:27:57Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文参考訳（メタデータ） (2022-10-14T03:22:43Z)
Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。 textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文参考訳（メタデータ） (2022-05-26T19:13:55Z)
Gleo-Det: Deep Convolution Feature-Guided Detector with Local Entropy Optimization for Salient Points [5.955667705173262]
本稿では, 深い畳み込み特徴のガイダンスを伴い, 繰り返し可能性の要求に基づき, きめ細かな制約を実現することを提案する。畳み込み特徴のガイダンスを用いて、正と負の両面からコスト関数を定義する。
論文参考訳（メタデータ） (2022-04-27T12:40:21Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
Where is the Grass Greener? Revisiting Generalized Policy Iteration for Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文参考訳（メタデータ） (2021-07-03T11:00:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。