論文の概要: Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives
- arxiv url: http://arxiv.org/abs/2505.15693v1
- Date: Wed, 21 May 2025 16:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.764484
- Title: Average Reward Reinforcement Learning for Omega-Regular and Mean-Payoff Objectives
- Title(参考訳): Omega-RegularおよびMean-Payoff対象に対する平均逆強化学習
- Authors: Milad Kazemi, Mateo Perez, Fabio Somenzi, Sadegh Soudjani, Ashutosh Trivedi, Alvaro Velasquez,
- Abstract要約: 絶対寿命仕様を平均回帰目標に変換するモデルフリー強化学習フレームワークを提案する。
また,語彙的多目的最適化のための報酬構造も導入する。
実験結果から,ベンチマークごとの割引方式の精度向上を継続する上で,我々の平均回帰アプローチを示す。
- 参考スコア(独自算出の注目度): 9.657038158333139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reinforcement learning (RL) have renewed focus on the design of reward functions that shape agent behavior. Manually designing reward functions is tedious and error-prone. A principled alternative is to specify behaviors in a formal language that can be automatically translated into rewards. Omega-regular languages are a natural choice for this purpose, given their established role in formal verification and synthesis. However, existing methods using omega-regular specifications typically rely on discounted reward RL in episodic settings, with periodic resets. This setup misaligns with the semantics of omega-regular specifications, which describe properties over infinite behavior traces. In such cases, the average reward criterion and the continuing setting -- where the agent interacts with the environment over a single, uninterrupted lifetime -- are more appropriate. To address the challenges of infinite-horizon, continuing tasks, we focus on absolute liveness specifications -- a subclass of omega-regular languages that cannot be violated by any finite behavior prefix, making them well-suited to the continuing setting. We present the first model-free RL framework that translates absolute liveness specifications to average-reward objectives. Our approach enables learning in communicating MDPs without episodic resetting. We also introduce a reward structure for lexicographic multi-objective optimization, aiming to maximize an external average-reward objective among the policies that also maximize the satisfaction probability of a given omega-regular specification. Our method guarantees convergence in unknown communicating MDPs and supports on-the-fly reductions that do not require full knowledge of the environment, thus enabling model-free RL. Empirical results show our average-reward approach in continuing setting outperforms discount-based methods across benchmarks.
- Abstract(参考訳): 強化学習(RL)の最近の進歩は、エージェントの挙動を形作る報酬関数の設計に再び焦点が当てられている。
手動で報酬関数を設計するのは面倒でエラーを起こしやすい。
原則化された代替手段は、報酬に自動的に変換できる形式言語で振舞いを指定することである。
オメガ正規言語は、形式的検証と合成において確立された役割を考えると、この目的のために自然な選択である。
しかし、既存のオメガレギュラー仕様を用いた手法は、通常、周期的なリセットを伴うエピソード設定において、割引された報酬RLに依存している。
この設定は、無限の挙動トレース上の特性を記述するオメガ規則仕様のセマンティクスと誤解する。
このような場合、平均報酬基準と継続する設定 -- エージェントが1つの中断しない寿命で環境と相互作用する -- はより適切である。
無限水平連続タスクの課題に対処するために,我々は,有限な振る舞いプレフィックスに違反できないオメガ規則言語のサブクラスである,絶対的生存性仕様に焦点をあてる。
絶対寿命仕様を平均回帰目標に翻訳する最初のモデルフリーなRLフレームワークを提案する。
提案手法は, エピソードリセットを使わずにMDPをコミュニケーションする学習を可能にする。
また,レキシコグラフィーによる多目的最適化のための報酬構造を導入し,与えられたオメガ規則仕様の満足度を最大化する政策の中で,外的平均回帰目標を最大化することを目的とした。
提案手法は,未知の通信MDPの収束を保証し,環境の完全な知識を必要としないオンザフライ還元をサポートし,モデルフリーなRLを実現する。
実験結果から,ベンチマークごとの割引方式の精度向上を継続する上で,我々の平均回帰アプローチを示す。
関連論文リスト
- Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。
学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - DeAL: Decoding-time Alignment for Large Language Models [59.63643988872571]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
本稿では,報酬関数をカスタマイズ可能なフレームワークであるDeALを提案し,LLMのDetime Alignmentを可能にする。
実験の結果,粒度の細かいトレードオフでDeALを実現できること,アライメント目標への適合性の向上,LLMの残差の解消が可能であることがわかった。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP [1.8262547855491456]
連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。
本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-16T17:45:38Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。