論文の概要: Epigraph-Guided Flow Matching for Safe and Performant Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08054v1
- Date: Sun, 08 Feb 2026 16:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.955554
- Title: Epigraph-Guided Flow Matching for Safe and Performant Offline Reinforcement Learning
- Title(参考訳): 安全かつ高性能なオフライン強化学習のためのエピグラフ誘導フローマッチング
- Authors: Manan Tayal, Mumuksh Tayal,
- Abstract要約: 本稿では,安全なオフラインRLを状態制約付き最適制御問題として定式化し,安全性と性能を協調的に最適化するフレームワークを提案する。
EpiFlowは、ほぼゼロの実証的安全違反で競合リターンを達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (RL) provides a compelling paradigm for training autonomous systems without the risks of online exploration, particularly in safety-critical domains. However, jointly achieving strong safety and performance from fixed datasets remains challenging. Existing safe offline RL methods often rely on soft constraints that allow violations, introduce excessive conservatism, or struggle to balance safety, reward optimization, and adherence to the data distribution. To address this, we propose Epigraph-Guided Flow Matching (EpiFlow), a framework that formulates safe offline RL as a state-constrained optimal control problem to co-optimize safety and performance. We learn a feasibility value function derived from an epigraph reformulation of the optimal control problem, thereby avoiding the decoupled objectives or post-hoc filtering common in prior work. Policies are synthesized by reweighting the behavior distribution based on this epigraph value function and fitting a generative policy via flow matching, enabling efficient, distribution-consistent sampling. Across various safety-critical tasks, including Safety-Gymnasium benchmarks, EpiFlow achieves competitive returns with near-zero empirical safety violations, demonstrating the effectiveness of epigraph-guided policy synthesis.
- Abstract(参考訳): オフライン強化学習(RL)は、特に安全クリティカルドメインにおいて、オンライン探索のリスクを伴わない自律システムのトレーニングに魅力的なパラダイムを提供する。
しかし、固定されたデータセットから強力な安全性とパフォーマンスを共同で達成することは依然として困難である。
既存の安全なオフラインRLメソッドは、しばしば、違反を許容するソフトな制約、過剰な保守性の導入、安全性のバランスの確保、最適化の報酬、データ分散の遵守に苦労する。
そこで本稿では,安全なオフラインRLを状態制約付き最適制御問題として定式化して,安全性と性能を両立するEpigraph-Guided Flow Matching(EpiFlow)を提案する。
本研究では、最適制御問題のエピグラフ再構成から導かれる実現可能性値関数を学習し、事前作業に共通する分離目的やポストホックフィルタリングを回避する。
このエピグラフ値関数に基づいて振舞い分布を再重み付けし、フローマッチングによる生成ポリシーを適合させて、効率的な分布一貫性サンプリングを可能にすることで、ポリシを合成する。
安全ギムナシウムベンチマークなど、さまざまな安全クリティカルなタスクにおいて、EpiFlowは、ほぼゼロに近い経験的安全性違反による競合リターンを達成し、エピグラフ誘導ポリシー合成の有効性を実証している。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - FAWAC: Feasibility Informed Advantage Weighted Regression for Persistent Safety in Offline Reinforcement Learning [7.888219789657414]
安全なオフライン強化学習は、安全性の制約を守りながら累積報酬を最大化するポリシーを学ぶことを目的としている。
主な課題は安全性とパフォーマンスのバランスであり、特に政策がアウト・オブ・ディストリビューション状態や行動に直面する場合である。
本稿では,マルコフ決定過程における持続的安全性を優先するFAWAC(Feasibility Informed Advantage Weighted Actor-Critic)を提案する。
論文 参考訳(メタデータ) (2024-12-12T02:28:50Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。