論文の概要: STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2505.20781v1
- Date: Tue, 27 May 2025 06:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.451984
- Title: STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation
- Title(参考訳): STITCH-OPE:Off-Policy 評価のための誘導拡散を用いた軌道スティッチ
- Authors: Hossein Goli, Michael Gimelfarb, Nathan Samuel de Lara, Haruki Nishimura, Masha Itkina, Florian Shkurti,
- Abstract要約: オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。
既存のOPE法は高次元の長距離問題には有効ではない。
長軸OPEのデノナイズ拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。
- 参考スコア(独自算出の注目度): 18.55356623615343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy evaluation (OPE) estimates the performance of a target policy using offline data collected from a behavior policy, and is crucial in domains such as robotics or healthcare where direct interaction with the environment is costly or unsafe. Existing OPE methods are ineffective for high-dimensional, long-horizon problems, due to exponential blow-ups in variance from importance weighting or compounding errors from learned dynamics models. To address these challenges, we propose STITCH-OPE, a model-based generative framework that leverages denoising diffusion for long-horizon OPE in high-dimensional state and action spaces. Starting with a diffusion model pre-trained on the behavior data, STITCH-OPE generates synthetic trajectories from the target policy by guiding the denoising process using the score function of the target policy. STITCH-OPE proposes two technical innovations that make it advantageous for OPE: (1) prevents over-regularization by subtracting the score of the behavior policy during guidance, and (2) generates long-horizon trajectories by stitching partial trajectories together end-to-end. We provide a theoretical guarantee that under mild assumptions, these modifications result in an exponential reduction in variance versus long-horizon trajectory diffusion. Experiments on the D4RL and OpenAI Gym benchmarks show substantial improvement in mean squared error, correlation, and regret metrics compared to state-of-the-art OPE methods.
- Abstract(参考訳): オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。
既存のOPE法は、重要度重み付けや学習力学モデルからの複合誤差による指数的な爆発による高次元長水平問題に対して効果がない。
これらの課題に対処するために,高次元状態および行動空間における長軸OPEの偏極拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。
行動データに基づいて事前訓練された拡散モデルから始まり、STITCH-OPEは、目標ポリシーのスコア関数を用いて復調過程を誘導することにより、目標ポリシーから合成軌道を生成する。
STITCH-OPEは,OPEに有利な2つの技術革新を提案する。(1)誘導中の行動方針のスコアを減じることによる過正規化の防止,(2)部分軌跡をエンドツーエンドに縫合することで長距離軌道を生成する。
我々は、軽微な仮定の下で、これらの修正が長距離軌道拡散に対する分散の指数関数的減少をもたらすことを理論的に保証する。
D4RLとOpenAI Gymベンチマークの実験では、最先端のOPE手法と比較して平均2乗誤差、相関、後悔の度合いが大幅に改善された。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Effective Restoration of Source Knowledge in Continual Test Time
Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。
情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。
我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-08T19:21:48Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Improving Adversarial Transferability via Intermediate-level
Perturbation Decay [79.07074710460012]
我々は,一段階の最適化で敵の例を再現する新しい中間レベル手法を開発した。
実験結果から, 種々の犠牲者モデルに対する攻撃において, 最先端技術よりも大きな差が認められた。
論文 参考訳(メタデータ) (2023-04-26T09:49:55Z) - Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。
ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。
VLBM は既存の OPE 手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-01-28T02:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。