論文の概要: Q-Cogni: An Integrated Causal Reinforcement Learning Framework
- arxiv url: http://arxiv.org/abs/2302.13240v1
- Date: Sun, 26 Feb 2023 05:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:13:25.672156
- Title: Q-Cogni: An Integrated Causal Reinforcement Learning Framework
- Title(参考訳): Q-Cogni: 統合因果強化学習フレームワーク
- Authors: Cris Cunha, Wei Liu, Tim French, Ajmal Mian
- Abstract要約: アルゴリズム統合型因果強化学習フレームワークQ-Cogniを提案する。
Q-Cogniは、事前に学習した環境の構造因果モデルを用いて最適な学習を実現する。
本報告では,より優れた政策の提示,学習効率の向上,エージェントの意思決定の解釈可能性の向上について報告する。
- 参考スコア(独自算出の注目度): 29.196739858730567
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Q-Cogni, an algorithmically integrated causal reinforcement
learning framework that redesigns Q-Learning with an autonomous causal
structure discovery method to improve the learning process with causal
inference. Q-Cogni achieves optimal learning with a pre-learned structural
causal model of the environment that can be queried during the learning process
to infer cause-and-effect relationships embedded in a state-action space. We
leverage on the sample efficient techniques of reinforcement learning, enable
reasoning about a broader set of policies and bring higher degrees of
interpretability to decisions made by the reinforcement learning agent. We
apply Q-Cogni on the Vehicle Routing Problem (VRP) and compare against
state-of-the-art reinforcement learning algorithms. We report results that
demonstrate better policies, improved learning efficiency and superior
interpretability of the agent's decision making. We also compare this approach
with traditional shortest-path search algorithms and demonstrate the benefits
of our causal reinforcement learning framework to high dimensional problems.
Finally, we apply Q-Cogni to derive optimal routing decisions for taxis in New
York City using the Taxi & Limousine Commission trip record data and compare
with shortest-path search, reporting results that show 85% of the cases with an
equal or better policy derived from Q-Cogni in a real-world domain.
- Abstract(参考訳): 本稿では,q-learningを自律的因果構造発見法で再設計し,因果推論による学習プロセスを改善するアルゴリズム統合因果強化学習フレームワークq-cogniを提案する。
Q-Cogniは、学習プロセス中にクエリ可能な環境の構造因果モデルを用いて最適な学習を行い、状態-作用空間に埋め込まれた因果関係を推論する。
我々は、強化学習の効率的な手法のサンプルを活用し、より広範な方針の推論を可能にし、強化学習エージェントによる意思決定に高い解釈可能性をもたらす。
車両ルーティング問題(VRP)にQ-Cogniを適用し、最先端の強化学習アルゴリズムと比較する。
我々は,よりよい政策,学習効率の向上,エージェントの意思決定の優れた解釈性を示す結果について報告する。
また,この手法を従来の最短経路探索アルゴリズムと比較し,高次元問題に対する因果強化学習フレームワークの利点を示す。
最後に、Q-Cogniを用いてタクシーの最適経路決定をTaxi & Limousine Commissionのトリップレコードデータを用いて導き、最短パス検索と比較し、実世界のQ-Cogniと同等以上のポリシーで85%のケースを報告した。
関連論文リスト
- Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning [5.960184723807347]
本稿では,主観的信念モデリングをQラーニングフレームワークに統合した認知的信念駆動型Qラーニング(CBDQ)を提案する。
CBDQは、人間のような学習能力と推論能力を持つエージェントを提供することで、意思決定の精度を高める。
各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-10-02T16:50:29Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Utilizing Background Knowledge for Robust Reasoning over Traffic
Situations [63.45021731775964]
我々は、インテリジェントトランスポーテーションの補完的な研究側面である交通理解に焦点を当てる。
本研究は,豊富なコモンセンス知識を前提として,テキストベースの手法とデータセットを対象とする。
交通状況に対するゼロショットQAには3つの知識駆動アプローチを採用しています。
論文 参考訳(メタデータ) (2022-12-04T09:17:24Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - The Statistical Complexity of Interactive Decision Making [126.04974881555094]
複雑度尺度であるDecision-Estimation Coefficientは,サンプル効率のインタラクティブ学習に必要かつ十分であることが証明された。
統合アルゴリズム設計原則であるE2Dは、教師付き推定のための任意のアルゴリズムを、意思決定のためのオンラインアルゴリズムに変換する。
論文 参考訳(メタデータ) (2021-12-27T02:53:44Z) - Reinforcement Learning for Autonomous Driving with Latent State
Inference and Spatial-Temporal Relationships [46.965260791099986]
強化学習フレームワークにおける潜伏状態の明示的に推測と空間的時間的関係の符号化は,この課題に対処する上で有効であることを示す。
我々は、強化学習者と教師付き学習者を組み合わせた枠組みにより、他の運転者の潜伏状態に関する事前知識を符号化する。
提案手法は,最先端のベースラインアプローチと比較して,T区間のナビゲーションにおける性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-11-09T08:55:12Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。