論文の概要: About Time: Model-free Reinforcement Learning with Timed Reward Machines
- arxiv url: http://arxiv.org/abs/2512.17637v1
- Date: Fri, 19 Dec 2025 14:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.43715
- Title: About Time: Model-free Reinforcement Learning with Timed Reward Machines
- Title(参考訳): 時間について:タイムド・リワード・マシンを用いたモデルなし強化学習
- Authors: Anirban Majumdar, Ritam Raha, Rajarshi Roy, David Parker, Marta Kwiatkowska,
- Abstract要約: Timed reward Machine (TRM) は、報酬構造にタイミング制約を組み込んだ報酬機械の拡張である。
デジタルおよびリアルタイムセマンティクスに基づく最適ポリシー学習のためのモデルフリーなRLフレームワークについて検討する。
提案アルゴリズムは,TRMを時間的オートマトンを抽象化した学習に統合し,TRMの構造を利用した反ファクトイメージングを用いて探索を改善する。
- 参考スコア(独自算出の注目度): 13.525747021139084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward specification plays a central role in reinforcement learning (RL), guiding the agent's behavior. To express non-Markovian rewards, formalisms such as reward machines have been introduced to capture dependencies on histories. However, traditional reward machines lack the ability to model precise timing constraints, limiting their use in time-sensitive applications. In this paper, we propose timed reward machines (TRMs), which are an extension of reward machines that incorporate timing constraints into the reward structure. TRMs enable more expressive specifications with tunable reward logic, for example, imposing costs for delays and granting rewards for timely actions. We study model-free RL frameworks (i.e., tabular Q-learning) for learning optimal policies with TRMs under digital and real-time semantics. Our algorithms integrate the TRM into learning via abstractions of timed automata, and employ counterfactual-imagining heuristics that exploit the structure of the TRM to improve the search. Experimentally, we demonstrate that our algorithm learns policies that achieve high rewards while satisfying the timing constraints specified by the TRM on popular RL benchmarks. Moreover, we conduct comparative studies of performance under different TRM semantics, along with ablations that highlight the benefits of counterfactual-imagining.
- Abstract(参考訳): リワード仕様は、エージェントの振舞いを導く強化学習(RL)において中心的な役割を果たす。
非マルコフ的な報酬を表現するために、歴史への依存を捉えるために報酬機械のような形式が導入された。
しかし、従来の報酬機には正確なタイミング制約をモデル化する能力がなく、時間に敏感なアプリケーションでの使用を制限する。
本稿では、報酬構造にタイミング制約を組み込んだ報酬機の拡張である報酬機(TRM)を提案する。
TRMは、例えば遅延のコストを課し、タイムリーなアクションに対する報酬を与えるなど、調整可能な報酬ロジックを備えたより表現力のある仕様を可能にする。
デジタルおよびリアルタイムセマンティクスに基づく最適ポリシー学習のためのモデルフリーなRLフレームワーク(表付きQ-ラーニング)について検討する。
我々のアルゴリズムは,TRMを時間的オートマトンを抽象化した学習に統合し,TRMの構造を利用した反実像ヒューリスティックを用いて探索を改善する。
実験により,提案アルゴリズムは,RTLベンチマークにおいてTRMが規定するタイミング制約を満たすとともに,高い報酬を達成するポリシーを学習することを示した。
さらに、異なるTRMセマンティクスに基づくパフォーマンスの比較研究を行い、反ファクト・イマジネーションの利点を浮き彫りにした。
関連論文リスト
- OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning [41.49024599460379]
大規模言語モデル(LLM)の整合には,リワードモデル(RM)が不可欠である。
ツール拡張型ロングフォーム報酬モデルであるOpenRMを導入し、外部ツールを呼び出して適切な証拠を収集することで、オープンエンドの応答を判断する。
新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークの実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-28T17:02:46Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Physics-Informed Reward Machines [4.7962647777554634]
Reward Machine(RM)は、強化学習(RL)における非マルコフ報酬を特定するための構造化された方法を提供する
本稿では、複雑な学習目的とRLエージェントの報酬構造を表現するために設計された記号機械である物理インフォームド報酬機(pRM)を紹介する。
本稿では,対実体験と報酬形成によるPRMの活用が可能なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-08-14T18:46:54Z) - Pushdown Reward Machines for Reinforcement Learning [17.63980224819404]
我々は、決定論的プッシュダウンオートマトンに基づく報酬機の拡張であるプッシュダウン報酬機(pdRMs)を提案する。
pdRMは、決定論的文脈自由言語で表現可能な時間的に拡張された振る舞いを認識し、報酬を与えることができる。
pdRMを用いて、決定論的文脈自由言語でタスクを表現可能なようにエージェントを訓練する方法を示す。
論文 参考訳(メタデータ) (2025-08-09T08:59:09Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。