論文の概要: Reinforcement Learning with Symbolic Reward Machines
- arxiv url: http://arxiv.org/abs/2603.03068v1
- Date: Tue, 03 Mar 2026 15:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.848819
- Title: Reinforcement Learning with Symbolic Reward Machines
- Title(参考訳): シンボリックリワードマシンを用いた強化学習
- Authors: Thomas Krug, Daniel Neider,
- Abstract要約: 本稿では,シンボリック・リワード・マシン(SRM)と学習アルゴリズムQSRMとLSRMを併用して,RMの限界を克服する手法を提案する。
SRMは環境の標準出力のみを消費し、シンボル式で表されるガードを通して観察を直接処理する。
提案手法は広く使われている環境定義に準拠し,ユーザに対してタスクの解釈可能な表現を提供する。
- 参考スコア(独自算出の注目度): 3.945491622255908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward Machines (RMs) are an established mechanism in Reinforcement Learning (RL) to represent and learn sparse, temporally extended tasks with non-Markovian rewards. RMs rely on high-level information in the form of labels that are emitted by the environment alongside the observation. However, this concept requires manual user input for each environment and task. The user has to create a suitable labeling function that computes the labels. These limitations lead to poor applicability in widely adopted RL frameworks. We propose Symbolic Reward Machines (SRMs) together with the learning algorithms QSRM and LSRM to overcome the limitations of RMs. SRMs consume only the standard output of the environment and process the observation directly through guards that are represented by symbolic formulas. In our evaluation, our SRM methods outperform the baseline RL approaches and generate the same results as the existing RM methods. At the same time, our methods adhere to the widely used environment definition and provide interpretable representations of the task to the user.
- Abstract(参考訳): Reward Machines (RM) はReinforcement Learning (RL) の確立されたメカニズムであり、非マルコフ報酬を伴う時間的に拡張されたタスクを表現および学習する。
RMは、観測とともに環境によって放出されるラベルの形で高レベルな情報に依存する。
しかし、この概念は各環境とタスクに対して手動のユーザー入力を必要とする。
ユーザはラベルを計算するのに適したラベル付け関数を作成する必要がある。
これらの制限は広く採用されているRLフレームワークの適用性に悪影響を及ぼす。
本稿では,シンボリック・リワード・マシン(SRM)と学習アルゴリズムQSRMとLSRMを併用して,RMの限界を克服する手法を提案する。
SRMは環境の標準出力のみを消費し、シンボル式で表されるガードを通して観察を直接処理する。
本評価では,SRM法がベースラインRL法より優れ,既存のRM法と同等の結果が得られた。
同時に,本手法は広く使われている環境定義に準拠し,ユーザに対してタスクの解釈可能な表現を提供する。
関連論文リスト
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Pushdown Reward Machines for Reinforcement Learning [17.63980224819404]
我々は、決定論的プッシュダウンオートマトンに基づく報酬機の拡張であるプッシュダウン報酬機(pdRMs)を提案する。
pdRMは、決定論的文脈自由言語で表現可能な時間的に拡張された振る舞いを認識し、報酬を与えることができる。
pdRMを用いて、決定論的文脈自由言語でタスクを表現可能なようにエージェントを訓練する方法を示す。
論文 参考訳(メタデータ) (2025-08-09T08:59:09Z) - RewardAnything: Generalizable Principle-Following Reward Models [82.16312590749052]
リワードモデルは典型的には、固定された嗜好データセットに基づいて訓練される。
これにより、様々な現実世界のニーズへの適応が、あるタスクにおける簡潔さから別のタスクにおける詳細な説明への適応を妨げる。
一般化可能な原理追従型報酬モデルを導入する。
RewardAnythingは、自然言語の原則を明示的に追従するようにデザインされ、訓練された新しいRMである。
論文 参考訳(メタデータ) (2025-06-04T07:30:16Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - Learning Robust Reward Machines from Noisy Labels [46.18428376996514]
PROB-IRMは、雑音のある実行トレースから強化学習(RL)エージェントのための堅牢な報酬機(RM)を学習するアプローチである。
ProB-IRMは雑音の痕跡からRMを学習し、それらを利用してRLエージェントを訓練し、そのタスクをうまく解決できることを示す。
論文 参考訳(メタデータ) (2024-08-27T08:41:42Z) - Neural Reward Machines [2.0755366440393743]
非マルコフ的強化学習(RL)タスクは、エージェントが環境の中で合理的に行動するために、状態-作用ペアの歴史全体を考える必要があるため、解決が困難である。
ニューラル・リワード・マシン(NRM)は,非記号的RLドメインにおける推論と学習の両方に使用できる,オートマタベースのニューロシンボリック・フレームワークである。
我々は,NRMがSG関数の知識を使わずに,先行知識を組み込むことができないディープRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:44:27Z) - MetaRM: Shifted Distributions Alignment via Meta-Learning [52.94381279744458]
言語モデルアライメントにおけるヒューマンフィードバック(RLHF)からの強化学習は、報酬モデル(RM)の能力に依存している
メタラーニングを利用したメタRMを導入し,その環境分布とRMを整合させる手法を提案する。
大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-05-01T10:43:55Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Hierarchies of Reward Machines [75.55324974788475]
リワードマシン(Reward Machine, RM)は、有限状態機械による強化学習タスクの報酬関数を表現するための最近の形式である。
本稿では,RMを他のRMを呼ばせることによって,サブタスク構造をさらに抽象化する形式的手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T12:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。