論文の概要: A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance
- arxiv url: http://arxiv.org/abs/2605.02777v1
- Date: Mon, 04 May 2026 16:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.403623
- Title: A decoupled diffusion planner that adapts to changing cost limits by using cost-conditioned generation for safety and reward gradients for performance
- Title(参考訳): コスト条件付き生成によるコスト制限の変化に対応する分散拡散プランナの安全性向上と性能向上のための報酬勾配
- Authors: Rufeng Chen, Zhaofan Zhang, Zhejiang Yang, Hechang Chen, Sihong Xie,
- Abstract要約: 我々は、報酬改善と制約満足度を競合する勾配目標として扱う安全な軌道生成ポリシーを開発する。
本政策は,タスクの94.7%の制約を満たすとともに,基準ライン間の最強の安全コンプライアンスを実現していることを示す。
また,Fasible Trajectory Relabelingは,プレフィックス再生アライメント条件下での報酬誘導コストドリフトを抑制することを示す。
- 参考スコア(独自算出の注目度): 17.817368889471563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline safe reinforcement learning often requires policies to adapt at deployment time to safety budgets that vary across episodes or change within a single episode. While diffusion-based planners enable flexible trajectory generation, existing guidance schemes often treat reward improvement and constraint satisfaction as competing gradient objectives, which can lead to unreliable safety compliance under cost limits. We reinterpret adaptive safe trajectory generation as sampling from a constrained trajectory distribution, where the budget restricts the trajectory region, and reward shapes preferences within that region. This perspective motivates Safe Decoupled Guidance Diffusion (SDGD), which conditions classifier-free guidance on the cost limit to bias sampling toward trajectories satisfying the specified limit, while using reward-gradient guidance to refine trajectories for higher return. Because direct reward guidance can increase return while also steering samples toward trajectories with higher cumulative cost, we introduce Feasible Trajectory Relabeling (FTR) to reshape reward targets and discourage such directions. We further provide a first-order sampling-time analysis showing that FTR suppresses reward-induced cost drift under a prefix-restorative alignment condition. Extensive evaluations on the DSRL benchmark show that SDGD achieves the strongest safety compliance among baselines, satisfying the constraint on 94.7% of tasks (36/38), while obtaining the highest reward among safe methods on 21 tasks.
- Abstract(参考訳): オフラインの安全強化学習は、エピソードによって異なる、または1回で変化する安全予算にデプロイ時に適応するポリシーを必要とすることが多い。
拡散型プランナーはフレキシブルな軌道生成を可能にするが、既存のガイダンススキームは報酬改善と制約満足度を競合する勾配目標として扱うことが多く、コスト制限下での信頼性の低い安全コンプライアンスにつながる。
我々は、制約された軌道分布から標本として適応型安全な軌道生成を解釈し、予算が軌道領域を制限し、その領域内での報酬の形状を選好する。
この視点は、特定の制限を満たす軌跡に対する偏差サンプリングに対するコスト制限に関する分類器のないガイダンスを規定するSDGD(Safe Decoupled Guidance Diffusion)を、より高いリターンのために軌跡を洗練させるために報酬段階のガイダンスを用いて動機付けする。
また, 直接報酬誘導は, 高累積コストのトラジェクトリに対してサンプルを操りながらリターンを増大させることができるため, 報酬目標を再形成し, その方向を遅らせるために, FTR(Feasible Trajectory Relabeling)を導入する。
さらに,FTRがプレフィックス復元アライメント条件下での報酬誘導コストドリフトを抑制することを示す1次サンプリング時間解析を行った。
DSRLベンチマークの大規模な評価によると、SDGDはベースライン間で最強の安全コンプライアンスを達成し、94.7%のタスク(36/38)の制約を満たす一方で、21タスクの安全なメソッドの中で最高の報酬を得る。
関連論文リスト
- DRAFT: Task Decoupled Latent Reasoning for Agent Safety [59.46137757545185]
DRAFT(Task Decoupled Latent Reasoning for Agent Safety)を提案する。
エクストラクターは、完全な軌跡をコンパクトな連続的な潜伏ドラフトに蒸留し、リゾナーはドラフトと元の軌跡に共同で参加して安全性を予測する。
DRAFTの精度は63.27%(LoRA)から91.18%に向上した。
論文 参考訳(メタデータ) (2026-02-11T07:45:14Z) - Conditional Sequence Modeling for Safe Reinforcement Learning [8.858563919623082]
オフライン安全な強化学習は、固定データセットからポリシーを学習し、累積コスト制約下でのパフォーマンスを最大化することを目的としている。
既存のオフラインセーフなRLメソッドの多くは、あらかじめ指定されたしきい値の下で訓練されている。
CSMをベースとしたRCDTは,複数のコストしきい値にまたがるゼロショット展開をサポートする。
論文 参考訳(メタデータ) (2026-02-09T12:22:57Z) - GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL [21.30558932544297]
Online Safe Reinforcement Learning (OSRL) は、制約を満たしつつ意思決定における高いパフォーマンスを達成するための政策を学ぶことを目的としている。
生成モデル(GM)の強い能力に触発された最近の研究は、条件付き生成プロセスとしてOSRLにおける意思決定を再構成している。
本稿では,報酬と制約満足度を効果的にバランスしながら縫合能力を向上するアルゴリズムであるGal-Assisted Stitching (GAS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:44:48Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Anchoring Refusal Direction: Mitigating Safety Risks in Tuning via Projection Constraint [52.878820730054365]
インストラクションファインチューニング(IFT)は,大規模言語モデル(LLM)の能力向上のための効果的なポストトレーニング戦略として広く採用されている。
LLMの内部機構に関する最近の研究は、隠蔽状態における拒絶方向(r方向)を同定し、拒絶行動の制御において重要な役割を担っている。
このようなドリフトを緩和するため,提案手法では,各トレーニングサンプルの隠れ状態のr方向への投射の大きさを規則化する投射制約損失項を導入する。
論文 参考訳(メタデータ) (2025-09-08T15:24:33Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。