Fugu-MT 論文翻訳(概要): STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation

論文の概要: STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation

arxiv url: http://arxiv.org/abs/2505.20781v1
Date: Tue, 27 May 2025 06:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.451984
Title: STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation
Title（参考訳）: STITCH-OPE:Off-Policy 評価のための誘導拡散を用いた軌道スティッチ
Authors: Hossein Goli, Michael Gimelfarb, Nathan Samuel de Lara, Haruki Nishimura, Masha Itkina, Florian Shkurti,
Abstract要約: オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。既存のOPE法は高次元の長距離問題には有効ではない。長軸OPEのデノナイズ拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。
参考スコア（独自算出の注目度）: 18.55356623615343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Off-policy evaluation (OPE) estimates the performance of a target policy using offline data collected from a behavior policy, and is crucial in domains such as robotics or healthcare where direct interaction with the environment is costly or unsafe. Existing OPE methods are ineffective for high-dimensional, long-horizon problems, due to exponential blow-ups in variance from importance weighting or compounding errors from learned dynamics models. To address these challenges, we propose STITCH-OPE, a model-based generative framework that leverages denoising diffusion for long-horizon OPE in high-dimensional state and action spaces. Starting with a diffusion model pre-trained on the behavior data, STITCH-OPE generates synthetic trajectories from the target policy by guiding the denoising process using the score function of the target policy. STITCH-OPE proposes two technical innovations that make it advantageous for OPE: (1) prevents over-regularization by subtracting the score of the behavior policy during guidance, and (2) generates long-horizon trajectories by stitching partial trajectories together end-to-end. We provide a theoretical guarantee that under mild assumptions, these modifications result in an exponential reduction in variance versus long-horizon trajectory diffusion. Experiments on the D4RL and OpenAI Gym benchmarks show substantial improvement in mean squared error, correlation, and regret metrics compared to state-of-the-art OPE methods.
Abstract（参考訳）: オフ政治評価(OPE)は、行動ポリシーから収集されたオフラインデータを用いて、ターゲットポリシーのパフォーマンスを推定する。既存のOPE法は、重要度重み付けや学習力学モデルからの複合誤差による指数的な爆発による高次元長水平問題に対して効果がない。これらの課題に対処するために,高次元状態および行動空間における長軸OPEの偏極拡散を利用したモデルベース生成フレームワークSTITCH-OPEを提案する。行動データに基づいて事前訓練された拡散モデルから始まり、STITCH-OPEは、目標ポリシーのスコア関数を用いて復調過程を誘導することにより、目標ポリシーから合成軌道を生成する。 STITCH-OPEは,OPEに有利な2つの技術革新を提案する。(1)誘導中の行動方針のスコアを減じることによる過正規化の防止,(2)部分軌跡をエンドツーエンドに縫合することで長距離軌道を生成する。我々は、軽微な仮定の下で、これらの修正が長距離軌道拡散に対する分散の指数関数的減少をもたらすことを理論的に保証する。 D4RLとOpenAI Gymベンチマークの実験では、最先端のOPE手法と比較して平均2乗誤差、相関、後悔の度合いが大幅に改善された。

関連論文リスト

POLAR: A Pessimistic Model-based Policy Learning Algorithm for Dynamic Treatment Regimes [15.681058679765277]
オフライン動的処理システム(DTR)のための悲観的モデルに基づくポリシー学習アルゴリズムであるPOLARを提案する。 POLARは、オフラインデータから遷移ダイナミクスを推定し、各ヒストリアクションペアに対する不確実性を定量化する。平均的なトレーニングパフォーマンスに重点を置く既存の多くの方法とは異なり、POLARは最終学習ポリシーの最適度を直接ターゲットとし、理論的な保証を提供する。合成データとMIMIC-IIIデータセットの両方の実験結果から、POLARは最先端の手法より優れており、ほぼ最適、歴史に配慮した治療戦略が得られている。
論文参考訳（メタデータ） (2025-06-25T13:22:57Z)
Binarization-Aware Adjuster: Bridging Continuous Optimization and Binary Inference in Edge Detection [0.0]
画像エッジ検出(ED)は、トレーニングと推論の根本的なミスマッチに直面します。本稿では,バイナリ化アウェア (BAA) を設計するための理論的手法を提案する。 BAAは二項化の挙動を勾配に基づく最適化に明示的に組み入れている。
論文参考訳（メタデータ） (2025-06-14T11:56:44Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2024-02-22T13:22:06Z)
Effective Restoration of Source Knowledge in Continual Test Time Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文参考訳（メタデータ） (2023-11-08T19:21:48Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Improving Adversarial Transferability via Intermediate-level Perturbation Decay [79.07074710460012]
我々は,一段階の最適化で敵の例を再現する新しい中間レベル手法を開発した。実験結果から, 種々の犠牲者モデルに対する攻撃において, 最先端技術よりも大きな差が認められた。
論文参考訳（メタデータ） (2023-04-26T09:49:55Z)
Variational Latent Branching Model for Off-Policy Evaluation [23.073461349048834]
マルコフ決定過程(MDP)の遷移関数を学習するための変動潜在分岐モデル(VLBM)を提案する。ランダムなモデル重みに対するモデルの堅牢性を改善するために分岐アーキテクチャを導入する。 VLBM は既存の OPE 手法よりも高い性能を示す。
論文参考訳（メタデータ） (2023-01-28T02:20:03Z)
Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文参考訳（メタデータ） (2022-11-20T21:57:10Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。