論文の概要: Recommending the optimal policy by learning to act from temporal data
- arxiv url: http://arxiv.org/abs/2303.09209v1
- Date: Thu, 16 Mar 2023 10:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:58:36.478205
- Title: Recommending the optimal policy by learning to act from temporal data
- Title(参考訳): 時間的データから行動する学習による最適政策の推薦
- Authors: Stefano Branchi, Andrei Buliga, Chiara Di Francescomarino, Chiara
Ghidini, Francesca Meneghello, Massimiliano Ronzani
- Abstract要約: 本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
- 参考スコア(独自算出の注目度): 2.554326189662943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prescriptive Process Monitoring is a prominent problem in Process Mining,
which consists in identifying a set of actions to be recommended with the goal
of optimising a target measure of interest or Key Performance Indicator (KPI).
One challenge that makes this problem difficult is the need to provide
Prescriptive Process Monitoring techniques only based on temporally annotated
(process) execution data, stored in, so-called execution logs, due to the lack
of well crafted and human validated explicit models. In this paper we aim at
proposing an AI based approach that learns, by means of Reinforcement Learning
(RL), an optimal policy (almost) only from the observation of past executions
and recommends the best activities to carry on for optimizing a KPI of
interest. This is achieved first by learning a Markov Decision Process for the
specific KPIs from data, and then by using RL training to learn the optimal
policy. The approach is validated on real and synthetic datasets and compared
with off-policy Deep RL approaches. The ability of our approach to compare
with, and often overcome, Deep RL approaches provides a contribution towards
the exploitation of white box RL techniques in scenarios where only temporal
execution data are available.
- Abstract(参考訳): 規範的プロセス監視はプロセスマイニングにおいて顕著な問題であり、ターゲットの関心指標やキーパフォーマンス指標(kpi)を最適化する目的で推奨すべきアクションのセットを特定することから始まる。
この問題を難しくする1つの課題は、時間的にアノテートされた(プロセス)実行データのみに基づいた、規範的なプロセス監視技術を提供することである。
本稿では,過去の実行の観察からのみ(ほぼ)最適な方針である強化学習(rl)によって学習するaiベースのアプローチの提案と,関心のkpiを最適化するための最善のアクティビティを提案する。
これはまず、データから特定のKPIのマルコフ決定プロセスを学び、次にRLトレーニングを使用して最適なポリシーを学ぶことで達成される。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
関連論文リスト
- A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Unsupervised Model-based Pre-training for Data-efficient Control from
Pixels [112.63440666617494]
データ効率のよい視覚制御のための効果的な教師なしRL戦略を設計する。
まず、教師なしRLを用いて収集したデータで事前訓練された世界モデルにより、将来のタスクへの適応が容易になることを示す。
次に、エージェントの事前学習されたコンポーネントを効果的に再利用し、想像力の学習と計画を行うためのいくつかの設計選択を分析する。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning to act: a Reinforcement Learning approach to recommend the best
next activities [4.511664266033014]
本稿では,過去の実行を観察する上で最適な政策である強化学習を用いて学習するアプローチについて検討する。
このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。
論文 参考訳(メタデータ) (2022-03-29T09:43:39Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。