論文の概要: Recommending the optimal policy by learning to act from temporal data
- arxiv url: http://arxiv.org/abs/2303.09209v1
- Date: Thu, 16 Mar 2023 10:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:58:36.478205
- Title: Recommending the optimal policy by learning to act from temporal data
- Title(参考訳): 時間的データから行動する学習による最適政策の推薦
- Authors: Stefano Branchi, Andrei Buliga, Chiara Di Francescomarino, Chiara
Ghidini, Francesca Meneghello, Massimiliano Ronzani
- Abstract要約: 本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
- 参考スコア(独自算出の注目度): 2.554326189662943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prescriptive Process Monitoring is a prominent problem in Process Mining,
which consists in identifying a set of actions to be recommended with the goal
of optimising a target measure of interest or Key Performance Indicator (KPI).
One challenge that makes this problem difficult is the need to provide
Prescriptive Process Monitoring techniques only based on temporally annotated
(process) execution data, stored in, so-called execution logs, due to the lack
of well crafted and human validated explicit models. In this paper we aim at
proposing an AI based approach that learns, by means of Reinforcement Learning
(RL), an optimal policy (almost) only from the observation of past executions
and recommends the best activities to carry on for optimizing a KPI of
interest. This is achieved first by learning a Markov Decision Process for the
specific KPIs from data, and then by using RL training to learn the optimal
policy. The approach is validated on real and synthetic datasets and compared
with off-policy Deep RL approaches. The ability of our approach to compare
with, and often overcome, Deep RL approaches provides a contribution towards
the exploitation of white box RL techniques in scenarios where only temporal
execution data are available.
- Abstract(参考訳): 規範的プロセス監視はプロセスマイニングにおいて顕著な問題であり、ターゲットの関心指標やキーパフォーマンス指標(kpi)を最適化する目的で推奨すべきアクションのセットを特定することから始まる。
この問題を難しくする1つの課題は、時間的にアノテートされた(プロセス)実行データのみに基づいた、規範的なプロセス監視技術を提供することである。
本稿では,過去の実行の観察からのみ(ほぼ)最適な方針である強化学習(rl)によって学習するaiベースのアプローチの提案と,関心のkpiを最適化するための最善のアクティビティを提案する。
これはまず、データから特定のKPIのマルコフ決定プロセスを学び、次にRLトレーニングを使用して最適なポリシーを学ぶことで達成される。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Timing Process Interventions with Causal Inference and Reinforcement
Learning [2.919859121836811]
本稿では,オンラインRLを生かした合成データを用いた時間プロセス介入実験とCIとの比較について述べる。
我々の実験によると、RLのポリシーはCIのポリシーよりも優れており、同時に堅牢である。
CIとは異なり、修正されていないオンラインRLアプローチは、次のベストアクティビティレコメンデーションなど、より一般的なPresPM問題にも適用することができる。
論文 参考訳(メタデータ) (2023-06-07T10:02:16Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning to act: a Reinforcement Learning approach to recommend the best
next activities [4.511664266033014]
本稿では,過去の実行を観察する上で最適な政策である強化学習を用いて学習するアプローチについて検討する。
このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。
論文 参考訳(メタデータ) (2022-03-29T09:43:39Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。