論文の概要: Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives
- arxiv url: http://arxiv.org/abs/2505.15693v1
- Date: Wed, 21 May 2025 16:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.764484
- Title: Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives
- Title(参考訳): Omega-RegularおよびMean-Payoff対象に対する平均逆強化学習
- Authors: Milad Kazemi, Mateo Perez, Fabio Somenzi, Sadegh Soudjani, Ashutosh Trivedi, Alvaro Velasquez,
- Abstract要約: 絶対寿命仕様を平均回帰目標に変換するモデルフリー強化学習フレームワークを提案する。
また,語彙的多目的最適化のための報酬構造も導入する。
実験結果から,ベンチマークごとの割引方式の精度向上を継続する上で,我々の平均回帰アプローチを示す。
- 参考スコア(独自算出の注目度): 9.657038158333139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning (RL) have renewed focus on the design of reward functions that shape agent behavior. Manually designing reward functions is tedious and error-prone. A principled alternative is to specify behaviors in a formal language that can be automatically translated into rewards. Omega-regular languages are a natural choice for this purpose, given their established role in formal verification and synthesis. However, existing methods using omega-regular specifications typically rely on discounted reward RL in episodic settings, with periodic resets. This setup misaligns with the semantics of omega-regular specifications, which describe properties over infinite behavior traces. In such cases, the average reward criterion and the continuing setting -- where the agent interacts with the environment over a single, uninterrupted lifetime -- are more appropriate. To address the challenges of infinite-horizon, continuing tasks, we focus on absolute liveness specifications -- a subclass of omega-regular languages that cannot be violated by any finite behavior prefix, making them well-suited to the continuing setting. We present the first model-free RL framework that translates absolute liveness specifications to average-reward objectives. Our approach enables learning in communicating MDPs without episodic resetting. We also introduce a reward structure for lexicographic multi-objective optimization, aiming to maximize an external average-reward objective among the policies that also maximize the satisfaction probability of a given omega-regular specification. Our method guarantees convergence in unknown communicating MDPs and supports on-the-fly reductions that do not require full knowledge of the environment, thus enabling model-free RL. Empirical results show our average-reward approach in continuing setting outperforms discount-based methods across benchmarks.
- Abstract(参考訳): 強化学習(RL)の最近の進歩は、エージェントの挙動を形作る報酬関数の設計に再び焦点が当てられている。
手動で報酬関数を設計するのは面倒でエラーを起こしやすい。
原則化された代替手段は、報酬に自動的に変換できる形式言語で振舞いを指定することである。
オメガ正規言語は、形式的検証と合成において確立された役割を考えると、この目的のために自然な選択である。
しかし、既存のオメガレギュラー仕様を用いた手法は、通常、周期的なリセットを伴うエピソード設定において、割引された報酬RLに依存している。
この設定は、無限の挙動トレース上の特性を記述するオメガ規則仕様のセマンティクスと誤解する。
このような場合、平均報酬基準と継続する設定 -- エージェントが1つの中断しない寿命で環境と相互作用する -- はより適切である。
無限水平連続タスクの課題に対処するために,我々は,有限な振る舞いプレフィックスに違反できないオメガ規則言語のサブクラスである,絶対的生存性仕様に焦点をあてる。
絶対寿命仕様を平均回帰目標に翻訳する最初のモデルフリーなRLフレームワークを提案する。
提案手法は, エピソードリセットを使わずにMDPをコミュニケーションする学習を可能にする。
また,レキシコグラフィーによる多目的最適化のための報酬構造を導入し,与えられたオメガ規則仕様の満足度を最大化する政策の中で,外的平均回帰目標を最大化することを目的とした。
提案手法は,未知の通信MDPの収束を保証し,環境の完全な知識を必要としないオンザフライ還元をサポートし,モデルフリーなRLを実現する。
実験結果から,ベンチマークごとの割引方式の精度向上を継続する上で,我々の平均回帰アプローチを示す。
関連論文リスト
- Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards [39.489554597919145]
グループ相対ポリシー最適化(GRPO)は、完了時にすべてのトークンに対して単一のスカラーの利点を割り当てる。
明確なセグメントと目的を持つ構造化世代では、このカップルはセグメント間で無関係な報酬信号を生成し、客観的な干渉と不正な信用につながる。
我々は、GRPO互換メソッドのファミリーであるBlockwise Advantage Estimationを提案し、それぞれの目的をそれぞれ独自の利点を割り当て、対応するテキストブロックのトークンにのみ適用する。
論文 参考訳(メタデータ) (2026-02-10T19:22:37Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Reinforcement Learning with $ω$-Regular Objectives and Constraints [8.056263159622386]
強化学習(RL)は通常、時間的、条件的、安全クリティカルな目標を表現する能力に制限のあるスカラー報酬に依存している。
我々は、$$-regularの目的と明示的な制約を組み合わせることで、両方の制限を同時に解決する。
線形計画法に基づくモデルベースRLアルゴリズムを開発し、その極限において、$$-regularの目的を満たす確率を最大化するポリシーを生成する。
論文 参考訳(メタデータ) (2025-11-25T02:28:02Z) - Expressive Reward Synthesis with the Runtime Monitoring Language [9.817136453608365]
強化学習(RL)における鍵となる課題は報酬(ミス)特定であり、不正確に定義された報酬関数は意図しない、潜在的に有害な行動をもたらす。
Reward Machinesは、報酬関数を有限状態オートマトンとして表現することでこの問題に対処し、構造化された非マルコフ報酬関数の指定を可能にする。
モニタリング言語(RML)を基盤として,新しい言語ベースのリワードマシンの開発を行っている。
論文 参考訳(メタデータ) (2025-10-17T19:54:59Z) - Recursive Reward Aggregation [51.552609126905885]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。
マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。
我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-07-11T12:37:20Z) - RewardAnything: Generalizable Principle-Following Reward Models [82.16312590749052]
リワードモデルは典型的には、固定された嗜好データセットに基づいて訓練される。
これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。
一般化可能な原理追従型報酬モデルを導入する。
RewardAnythingは、自然言語の原則を明示的に追従するようにデザインされ、訓練された新しいRMである。
論文 参考訳(メタデータ) (2025-06-04T07:30:16Z) - Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。
学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP [1.8262547855491456]
連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。
本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-16T17:45:38Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。