論文の概要: GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL
- arxiv url: http://arxiv.org/abs/2602.05323v1
- Date: Thu, 05 Feb 2026 05:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.772377
- Title: GAS: Enhancing Reward-Cost Balance of Generative Model-assisted Offline Safe RL
- Title(参考訳): GAS: 生成モデル支援オフライン安全RLのリワードコストバランス向上
- Authors: Zifan Liu, Xinran Li, Shibo Chen, Jun Zhang,
- Abstract要約: Online Safe Reinforcement Learning (OSRL) は、制約を満たしつつ意思決定における高いパフォーマンスを達成するための政策を学ぶことを目的としている。
生成モデル(GM)の強い能力に触発された最近の研究は、条件付き生成プロセスとしてOSRLにおける意思決定を再構成している。
本稿では,報酬と制約満足度を効果的にバランスしながら縫合能力を向上するアルゴリズムであるGal-Assisted Stitching (GAS)を提案する。
- 参考スコア(独自算出の注目度): 21.30558932544297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline Safe Reinforcement Learning (OSRL) aims to learn a policy to achieve high performance in sequential decision-making while satisfying constraints, using only pre-collected datasets. Recent works, inspired by the strong capabilities of Generative Models (GMs), reformulate decision-making in OSRL as a conditional generative process, where GMs generate desirable actions conditioned on predefined reward and cost values. However, GM-assisted methods face two major challenges in OSRL: (1) lacking the ability to "stitch" optimal transitions from suboptimal trajectories within the dataset, and (2) struggling to balance reward targets with cost targets, particularly when they are conflict. To address these issues, we propose Goal-Assisted Stitching (GAS), a novel algorithm designed to enhance stitching capabilities while effectively balancing reward maximization and constraint satisfaction. To enhance the stitching ability, GAS first augments and relabels the dataset at the transition level, enabling the construction of high-quality trajectories from suboptimal ones. GAS also introduces novel goal functions, which estimate the optimal achievable reward and cost goals from the dataset. These goal functions, trained using expectile regression on the relabeled and augmented dataset, allow GAS to accommodate a broader range of reward-cost return pairs and achieve a better tradeoff between reward maximization and constraint satisfaction compared to human-specified values. The estimated goals then guide policy training, ensuring robust performance under constrained settings. Furthermore, to improve training stability and efficiency, we reshape the dataset to achieve a more uniform reward-cost return distribution. Empirical results validate the effectiveness of GAS, demonstrating superior performance in balancing reward maximization and constraint satisfaction compared to existing methods.
- Abstract(参考訳): Offline Safe Reinforcement Learning (OSRL)は、事前コンパイルされたデータセットのみを使用して、制約を満たしながらシーケンシャルな意思決定において高いパフォーマンスを達成するためのポリシーを学ぶことを目的としている。
生成モデル(GM)の強い能力に触発された最近の研究は、OSRLにおける意思決定を条件付き生成プロセスとして再編成し、GMは事前に定義された報酬とコストの値に基づいて望ましい行動を生成する。
しかし、GM支援手法はOSRLにおいて2つの大きな課題に直面している。(1)データセット内の最適軌道から最適遷移を「安定」する能力が欠如し、(2)報酬目標とコスト目標とのバランスをとるのに苦労している。
これらの問題に対処するために,報酬の最大化と制約満足度を効果的にバランスしながら縫合能力を向上するアルゴリズムであるGoal-Assisted Stitching (GAS)を提案する。
縫合能力を高めるため、GASはデータセットをトランジションレベルで拡張し、再ラベルし、最適以下のものから高品質なトラジェクトリを構築することができる。
GASはまた、データセットから最適な達成可能な報酬とコスト目標を見積もる、新しい目標関数も導入している。
これらのゴール関数は、拡張データセットの予測回帰を用いてトレーニングされ、GASはより広い範囲の報酬コストのリターンペアに対応でき、人間の指定値と比較して報酬の最大化と制約満足度とのトレードオフをより良く達成できる。
評価された目標がポリシトレーニングのガイドとなり、制約された設定下での堅牢なパフォーマンスが保証される。
さらに、トレーニングの安定性と効率を改善するために、より均一な報酬コストのリターン分布を達成するためにデータセットを再構成する。
その結果,GASの有効性を実証し,既存の手法と比較して報酬の最大化と制約満足度をバランスさせる上で優れた性能を示した。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。
エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。
1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。
本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T11:59:25Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Reinforced Preference Optimization for Recommendation [28.87206911186567]
本稿では,レコメンデーションのためのReinforced Preference Optimization for Recommendation (ReRe)を提案する。
ReReは制約ビーム探索を取り入れてサンプリング効率を改善し、ハードネガを多様化する。
ReRe は従来型と LLM ベースのレコメンデータのランク付け性能を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-14T07:04:33Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning [17.245293915129942]
最適目的は強化学習(RL)の基本的側面である
総リターンは理想的であるが、割引リターンはその安定性のために現実的な目的である。
目的を整合させる2つの方法を提案する。
論文 参考訳(メタデータ) (2024-07-18T08:33:10Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。