論文の概要: Timing Process Interventions with Causal Inference and Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.04299v1
- Date: Wed, 7 Jun 2023 10:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:09:19.355066
- Title: Timing Process Interventions with Causal Inference and Reinforcement
Learning
- Title(参考訳): 因果推論と強化学習を用いたタイミングプロセス介入
- Authors: Hans Weytjens, Wouter Verbeke, Jochen De Weerdt
- Abstract要約: 本稿では,オンラインRLを生かした合成データを用いた時間プロセス介入実験とCIとの比較について述べる。
我々の実験によると、RLのポリシーはCIのポリシーよりも優れており、同時に堅牢である。
CIとは異なり、修正されていないオンラインRLアプローチは、次のベストアクティビティレコメンデーションなど、より一般的なPresPM問題にも適用することができる。
- 参考スコア(独自算出の注目度): 2.919859121836811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The shift from the understanding and prediction of processes to their
optimization offers great benefits to businesses and other organizations.
Precisely timed process interventions are the cornerstones of effective
optimization. Prescriptive process monitoring (PresPM) is the sub-field of
process mining that concentrates on process optimization. The emerging PresPM
literature identifies state-of-the-art methods, causal inference (CI) and
reinforcement learning (RL), without presenting a quantitative comparison. Most
experiments are carried out using historical data, causing problems with the
accuracy of the methods' evaluations and preempting online RL. Our contribution
consists of experiments on timed process interventions with synthetic data that
renders genuine online RL and the comparison to CI possible, and allows for an
accurate evaluation of the results. Our experiments reveal that RL's policies
outperform those from CI and are more robust at the same time. Indeed, the RL
policies approach perfect policies. Unlike CI, the unaltered online RL approach
can be applied to other, more generic PresPM problems such as next best
activity recommendations. Nonetheless, CI has its merits in settings where
online learning is not an option.
- Abstract(参考訳): プロセスの理解と予測から最適化への移行は、企業や他の組織に大きなメリットをもたらします。
正確なプロセス介入は効果的な最適化の基礎となる。
PresPM(Prescriptive Process Monitoring)はプロセス最適化に焦点を当てたプロセスマイニングのサブフィールドである。
新たなPresPM文献は、定量的比較を示さずに、最先端の手法、因果推論(CI)、強化学習(RL)を識別する。
ほとんどの実験は過去のデータを用いて行われ、手法の評価の正確さとオンラインRLのプリエンプションの問題を引き起こす。
我々のコントリビューションは、リアルタイムなオンラインRLをレンダリングする合成データによるタイムドプロセス介入の実験と、CIとの比較を行い、結果の正確な評価を可能にする。
我々の実験によると、RLのポリシーはCIのポリシーよりも優れており、同時に堅牢である。
実際、RLポリシーは完璧なポリシーに近づきます。
CIとは異なり、修正されていないオンラインRLアプローチは、次のベストアクティビティレコメンデーションなど、より一般的なPresPM問題にも適用することができる。
それでもCIは、オンライン学習が選択肢にならない環境でのメリットがあります。
関連論文リスト
- Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Hyperparameters in Reinforcement Learning and How To Tune Them [25.782420501870295]
深層強化学習におけるハイパーパラメータの選択は,エージェントの最終的な性能とサンプル効率に大きな影響を及ぼすことを示す。
我々は,シードのチューニングとテストの分離など,AutoMLから確立されたベストプラクティスを採用することを提案する。
我々は、最先端のHPOツールを、RLアルゴリズムや環境を手作りのツールと比較することで、これをサポートする。
論文 参考訳(メタデータ) (2023-06-02T07:48:18Z) - Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文 参考訳(メタデータ) (2023-03-16T10:30:36Z) - Deep Offline Reinforcement Learning for Real-world Treatment
Optimization Applications [3.770564448216192]
オフラインRLトレーニングにおける動作不均衡に対処するための,実践的かつ理論的に基礎的な遷移サンプリング手法を提案する。
糖尿病と敗血症治療最適化のための2つの現実的課題について広範な実験を行った。
本提案手法は, 様々な原則および臨床関連指標を用いて, 期待される健康影響を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-02-15T09:30:57Z) - Distributional Reinforcement Learning for Scheduling of (Bio)chemical
Production Processes [0.0]
強化学習(Reinforcement Learning, RL)は、最近、プロセスシステム工学と制御コミュニティから大きな注目を集めている。
本稿では,生産スケジューリング問題に共通して課される優先的制約と解離的制約に対処するRL手法を提案する。
論文 参考訳(メタデータ) (2022-03-01T17:25:40Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。