論文の概要: Reinforcement Learning with Temporal-Logic-Based Causal Diagrams
- arxiv url: http://arxiv.org/abs/2306.13732v1
- Date: Fri, 23 Jun 2023 18:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 19:26:10.703446
- Title: Reinforcement Learning with Temporal-Logic-Based Causal Diagrams
- Title(参考訳): 時間論理に基づく因果関係図を用いた強化学習
- Authors: Yash Paliwal, Rajarshi Roy, Jean-Rapha\"el Gaglione, Nasim
Baharisangari, Daniel Neider, Xiaoming Duan, Ufuk Topcu, Zhe Xu
- Abstract要約: エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
これらの機械は報酬関数をモデル化するが、環境に関する因果的知識を見落としてしまうことが多い。
環境の異なる特性間の時間的因果関係をキャプチャする,時間論理に基づく因果関係図(TL-CD)をRLで提案する。
- 参考スコア(独自算出の注目度): 25.538860320318943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a class of reinforcement learning (RL) tasks where the objective of
the agent is to accomplish temporally extended goals. In this setting, a common
approach is to represent the tasks as deterministic finite automata (DFA) and
integrate them into the state-space for RL algorithms. However, while these
machines model the reward function, they often overlook the causal knowledge
about the environment. To address this limitation, we propose the
Temporal-Logic-based Causal Diagram (TL-CD) in RL, which captures the temporal
causal relationships between different properties of the environment. We
exploit the TL-CD to devise an RL algorithm in which an agent requires
significantly less exploration of the environment. To this end, based on a
TL-CD and a task DFA, we identify configurations where the agent can determine
the expected rewards early during an exploration. Through a series of case
studies, we demonstrate the benefits of using TL-CDs, particularly the faster
convergence of the algorithm to an optimal policy due to reduced exploration of
the environment.
- Abstract(参考訳): エージェントが時間的に拡張された目標を達成するための強化学習(RL)タスクのクラスについて検討する。
この設定では、タスクを決定論的有限オートマトン(DFA)として表現し、それらをRLアルゴリズムの状態空間に統合する。
しかし、これらの機械は報酬関数をモデル化するが、しばしば環境に関する因果知識を見落としている。
この制限に対処するため、RLにおける時間論理に基づく因果関係(TL-CD)を提案し、環境の異なる特性間の時間因果関係を捉える。
我々は,エージェントが環境の探索を著しく少なくするrlアルゴリズムを考案するためにtl-cdを利用する。
この目的のために、TL-CDとタスクDFAに基づいて、エージェントが探索中に期待される報酬を早期に決定できる構成を特定する。
一連のケーススタディを通じて、TL-CDを使うことの利点、特に環境探索の削減による最適ポリシーへのアルゴリズムの高速収束を実証する。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。