論文の概要: Physics-Informed Reward Machines
- arxiv url: http://arxiv.org/abs/2508.14093v1
- Date: Thu, 14 Aug 2025 18:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.180801
- Title: Physics-Informed Reward Machines
- Title(参考訳): 物理インフォームド・リワードマシン
- Authors: Daniel Ajeleye, Ashutosh Trivedi, Majid Zamani,
- Abstract要約: Reward Machine(RM)は、強化学習(RL)における非マルコフ報酬を特定するための構造化された方法を提供する
本稿では、複雑な学習目的とRLエージェントの報酬構造を表現するために設計された記号機械である物理インフォームド報酬機(pRM)を紹介する。
本稿では,対実体験と報酬形成によるPRMの活用が可能なRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.7962647777554634
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reward machines (RMs) provide a structured way to specify non-Markovian rewards in reinforcement learning (RL), thereby improving both expressiveness and programmability. Viewed more broadly, they separate what is known about the environment, captured by the reward mechanism, from what remains unknown and must be discovered through sampling. This separation supports techniques such as counterfactual experience generation and reward shaping, which reduce sample complexity and speed up learning. We introduce physics-informed reward machines (pRMs), a symbolic machine designed to express complex learning objectives and reward structures for RL agents, thereby enabling more programmable, expressive, and efficient learning. We present RL algorithms capable of exploiting pRMs via counterfactual experiences and reward shaping. Our experimental results show that these techniques accelerate reward acquisition during the training phases of RL. We demonstrate the expressiveness and effectiveness of pRMs through experiments in both finite and continuous physical environments, illustrating that incorporating pRMs significantly improves learning efficiency across several control tasks.
- Abstract(参考訳): Reward Machine(RM)は、強化学習(RL)における非マルコフ報酬を指定するための構造化された方法を提供する。
より広い視野で見れば、彼らは、報酬メカニズムによって捉えられた、環境に関する既知のものと、サンプリングによって発見されなければならないものとを分離する。
この分離は、サンプルの複雑さを減らし、学習を高速化する、反実体験生成や報酬形成のようなテクニックをサポートする。
我々は、複雑な学習目標とRLエージェントの報酬構造を表現するために設計された記号機械である物理インフォームド報酬機(pRM)を導入し、よりプログラム的、表現的、効率的な学習を可能にした。
本稿では,対実体験と報酬形成によるPRMの活用が可能なRLアルゴリズムを提案する。
実験の結果,RLの訓練段階における報酬獲得の促進が示唆された。
有限および連続的な物理環境における実験を通して, pRMの表現性と有効性を示し, pRMを組み込むことにより, 複数の制御タスクにおける学習効率が大幅に向上することを示した。
関連論文リスト
- Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。