論文の概要: Expressive Reward Synthesis with the Runtime Monitoring Language
- arxiv url: http://arxiv.org/abs/2510.16185v1
- Date: Fri, 17 Oct 2025 19:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.887821
- Title: Expressive Reward Synthesis with the Runtime Monitoring Language
- Title(参考訳): 実行時モニタリング言語を用いた表現的リワード合成
- Authors: Daniel Donnelly, Angelo Ferrando, Francesco Belardinelli,
- Abstract要約: 強化学習(RL)における鍵となる課題は報酬(ミス)特定であり、不正確に定義された報酬関数は意図しない、潜在的に有害な行動をもたらす。
Reward Machinesは、報酬関数を有限状態オートマトンとして表現することでこの問題に対処し、構造化された非マルコフ報酬関数の指定を可能にする。
モニタリング言語(RML)を基盤として,新しい言語ベースのリワードマシンの開発を行っている。
- 参考スコア(独自算出の注目度): 9.817136453608365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in reinforcement learning (RL) is reward (mis)specification, whereby imprecisely defined reward functions can result in unintended, possibly harmful, behaviours. Indeed, reward functions in RL are typically treated as black-box mappings from state-action pairs to scalar values. While effective in many settings, this approach provides no information about why rewards are given, which can hinder learning and interpretability. Reward Machines address this issue by representing reward functions as finite state automata, enabling the specification of structured, non-Markovian reward functions. However, their expressivity is typically bounded by regular languages, leaving them unable to capture more complex behaviours such as counting or parametrised conditions. In this work, we build on the Runtime Monitoring Language (RML) to develop a novel class of language-based Reward Machines. By leveraging the built-in memory of RML, our approach can specify reward functions for non-regular, non-Markovian tasks. We demonstrate the expressiveness of our approach through experiments, highlighting additional advantages in flexible event-handling and task specification over existing Reward Machine-based methods.
- Abstract(参考訳): 強化学習(RL)における重要な課題は報酬(ミス)特定であり、不正確に定義された報酬関数は意図しない、潜在的に有害な行動をもたらす。
実際、RLの報酬関数は一般に状態-作用対からスカラー値へのブラックボックス写像として扱われる。
多くの環境で効果的であるが、このアプローチは報酬が与えられる理由に関する情報を提供していないため、学習や解釈が妨げられる。
Reward Machinesは、報酬関数を有限状態オートマトンとして表現することでこの問題に対処し、構造化された非マルコフ報酬関数の指定を可能にする。
しかしながら、それらの表現性は典型的には正規言語に縛られ、カウントやパラメトリド条件のようなより複雑な振る舞いを捉えられなくなる。
本研究では,Reward Machines の新たなクラスを開発するために,Runtime Monitoring Language (RML) を構築した。
RMLの内蔵メモリを利用することで、非正規な非マルコフ的タスクに対する報酬関数を指定できる。
既存のReward Machineベースの手法に比べて、フレキシブルなイベントハンドリングとタスク仕様の利点が強調されている。
関連論文リスト
- LinguaFluid: Language Guided Fluid Control via Semantic Rewards in Reinforcement Learning [0.7864304771129751]
本研究では,現在状態と目標意味的指示とを一致させて報酬を計算できる意味的整合強化学習手法を提案する。
我々は,手作りの報酬関数がなくても,意味報酬は学習を指導して,競争力のある制御動作を実現することができることを示した。
このフレームワークは、エージェントの振る舞いを自然言語の目標と整合させるための新たな地平を開き、より大きな言語モデルのよりシームレスな統合の基礎となる。
論文 参考訳(メタデータ) (2025-08-08T03:23:56Z) - Recursive Reward Aggregation [60.51668865089082]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。
マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。
我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-07-11T12:37:20Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。