論文の概要: LRT-Diffusion: Calibrated Risk-Aware Guidance for Diffusion Policies
- arxiv url: http://arxiv.org/abs/2510.24983v1
- Date: Tue, 28 Oct 2025 21:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.795341
- Title: LRT-Diffusion: Calibrated Risk-Aware Guidance for Diffusion Policies
- Title(参考訳): LRT拡散:拡散政策に対するリスク対応ガイダンスの校正
- Authors: Ximan Sun, Xiang Cheng,
- Abstract要約: 拡散政策はオフライン強化学習(RL)と競合する
LRT-Diffusion(リスク対応サンプリングルール)を導入し,各段階を逐次仮説テストとして扱う。
これにより、ガイダンスは、ユーザ解釈可能なリスク予算によるエビデンス駆動の調整に固定されたプッシュから切り替わる。
- 参考スコア(独自算出の注目度): 8.211731158152554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies are competitive for offline reinforcement learning (RL) but are typically guided at sampling time by heuristics that lack a statistical notion of risk. We introduce LRT-Diffusion, a risk-aware sampling rule that treats each denoising step as a sequential hypothesis test between the unconditional prior and the state-conditional policy head. Concretely, we accumulate a log-likelihood ratio and gate the conditional mean with a logistic controller whose threshold tau is calibrated once under H0 to meet a user-specified Type-I level alpha. This turns guidance from a fixed push into an evidence-driven adjustment with a user-interpretable risk budget. Importantly, we deliberately leave training vanilla (two heads with standard epsilon-prediction) under the structure of DDPM. LRT guidance composes naturally with Q-gradients: critic-gradient updates can be taken at the unconditional mean, at the LRT-gated mean, or a blend, exposing a continuum from exploitation to conservatism. We standardize states and actions consistently at train and test time and report a state-conditional out-of-distribution (OOD) metric alongside return. On D4RL MuJoCo tasks, LRT-Diffusion improves the return-OOD trade-off over strong Q-guided baselines in our implementation while honoring the desired alpha. Theoretically, we establish level-alpha calibration, concise stability bounds, and a return comparison showing when LRT surpasses Q-guidance-especially when off-support errors dominate. Overall, LRT-Diffusion is a drop-in, inference-time method that adds principled, calibrated risk control to diffusion policies for offline RL.
- Abstract(参考訳): 拡散政策はオフライン強化学習(RL)と競合するが、リスクの統計的概念を欠くヒューリスティックスによってサンプリング時に導かれるのが一般的である。
リスク対応型サンプリングルールであるLRT-Diffusionを導入する。
具体的には、ユーザの指定したType-Iレベルαを満たすために、H0以下で1度閾値タウを校正したロジスティックコントローラで、ログライクな比率を蓄積し、条件平均をゲートする。
これにより、ガイダンスは、ユーザ解釈可能なリスク予算によるエビデンス駆動の調整に固定されたプッシュから切り替わる。
重要なことは,訓練用バニラ(標準的なエプシロンの2つの頭)をDDPMの構造下に置くことである。
批判的段階的な更新は、無条件平均、LRT-gate平均、またはブレンドで行われ、連続体を搾取から保守主義へ露出させる。
私たちは、列車やテスト時に状態とアクションを一貫して標準化し、返却と同時に状態条件のアウト・オブ・ディストリビューション(OOD)メトリクスを報告します。
D4RL MuJoCoタスクでは、LRT-Diffusionは、所望のアルファを尊重しながら、我々の実装における強力なQ誘導ベースラインに対するリターン-OODトレードオフを改善する。
理論的には、LRTがQ-guidance(特に非サポートエラーが支配的な場合)を超えた場合のレベルアルファ校正、簡潔な安定性境界、リターン比較を確立する。
全体として、LRT-Diffusionは、オフラインRLの拡散ポリシーに原則化された、キャリブレーションされたリスク制御を追加する、ドロップイン型推論時間法である。
関連論文リスト
- Density-Ratio Weighted Behavioral Cloning: Learning Control Policies from Corrupted Datasets [2.922743999325622]
本稿では,密度比重み付き行動クローンについて紹介する(重み付きBC)。
重み付きBC(Weighted BC)は、2値判別器を介して軌跡レベルの密度比を推定するために、小さな検証済みの基準セットを使用する頑健な模倣学習手法である。
実験により、Weighted BCは汚染率が高い場合でもほぼ最適性能を維持していることが示された。
論文 参考訳(メタデータ) (2025-10-01T21:43:04Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフラインの強化学習では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。
拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。
提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-31T00:41:04Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。