論文の概要: Expediting Reinforcement Learning by Incorporating Knowledge About Temporal Causality in the Environment
- arxiv url: http://arxiv.org/abs/2510.15456v1
- Date: Fri, 17 Oct 2025 09:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.552408
- Title: Expediting Reinforcement Learning by Incorporating Knowledge About Temporal Causality in the Environment
- Title(参考訳): 環境における時間的因果性に関する知識を取り入れた強化学習の迅速化
- Authors: Jan Corazza, Hadi Partovi Aria, Daniel Neider, Zhe Xu,
- Abstract要約: 強化学習アルゴリズムは、報酬フィードバックが不十分で、環境内の複雑なイベントのシーケンスに依存するタスクに対して最適なポリシーを学ぶのに苦労する。
本稿では,時間論理に基づく因果関係図を報酬形式に組み込む手法を提案する。
- 参考スコア(独自算出の注目度): 6.914710674738284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms struggle with learning optimal policies for tasks where reward feedback is sparse and depends on a complex sequence of events in the environment. Probabilistic reward machines (PRMs) are finite-state formalisms that can capture temporal dependencies in the reward signal, along with nondeterministic task outcomes. While special RL algorithms can exploit this finite-state structure to expedite learning, PRMs remain difficult to modify and design by hand. This hinders the already difficult tasks of utilizing high-level causal knowledge about the environment, and transferring the reward formalism into a new domain with a different causal structure. This paper proposes a novel method to incorporate causal information in the form of Temporal Logic-based Causal Diagrams into the reward formalism, thereby expediting policy learning and aiding the transfer of task specifications to new environments. Furthermore, we provide a theoretical result about convergence to optimal policy for our method, and demonstrate its strengths empirically.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) アルゴリズムは、報酬フィードバックが不十分で、環境内の複雑なイベントのシーケンスに依存するタスクに対して最適なポリシーを学ぶのに苦労する。
確率的報酬機 (PRMs) は有限状態形式であり、報酬信号の時間的依存を非決定論的タスク結果とともに捉えることができる。
特殊なRLアルゴリズムはこの有限状態構造を利用して学習を高速化するが、PRMは手動で変更・設計することが困難である。
これにより、環境に関する高度な因果的知識を利用し、報酬形式を異なる因果構造を持つ新しい領域に移行するという、すでに困難なタスクが妨げられる。
本稿では、時間論理に基づく因果関係図を報酬形式に組み込むことにより、政策学習の迅速化とタスク仕様の新たな環境への移行を支援する新しい手法を提案する。
さらに,本手法の最適ポリシへの収束に関する理論的結果を提供し,その強度を実証的に示す。
関連論文リスト
- Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning [51.54559117314768]
最近の研究は、時間プランナーの性能向上のためのガイダンスの合成に強化学習(Reinforcement Learning, RL)を用いることを検討した。
本稿では,RLと計画段階の両方において,シンボリックスが提供した情報を活用することに焦点を当てた学習計画フレームワークの進化を提案する。
論文 参考訳(メタデータ) (2025-05-19T17:19:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Learning by Doing: An Online Causal Reinforcement Learning Framework with Causal-Aware Policy [38.86867078596718]
我々は、図形因果モデルを用いて、状態の生成過程を明示的にモデル化することを検討する。
我々は、環境のアクティブな介入学習とRL相互作用プロセスに更新する因果構造を定式化する。
論文 参考訳(メタデータ) (2024-02-07T14:09:34Z) - Reinforcement Learning with Temporal-Logic-Based Causal Diagrams [25.538860320318943]
エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
これらの機械は報酬関数をモデル化するが、環境に関する因果的知識を見落としてしまうことが多い。
環境の異なる特性間の時間的因果関係をキャプチャする,時間論理に基づく因果関係図(TL-CD)をRLで提案する。
論文 参考訳(メタデータ) (2023-06-23T18:42:27Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-Policy Reinforcement Learning with Delayed Rewards [16.914712720033524]
多くの現実世界のタスクでは、エージェントがアクションを実行した直後に即時報酬がアクセスできない、あるいは定義できない。
本稿では、まず、遅延報酬を伴う環境を正式に定義し、このような環境の非マルコフ的な性質から生じる課題について議論する。
理論収束保証を伴う遅延報酬を処理できる新しいQ-関数の定式化を備えた一般の政治外RLフレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-22T15:19:48Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。