論文の概要: Using Reinforcement Learning to Optimize Responses in Care Processes: A
Case Study on Aggression Incidents
- arxiv url: http://arxiv.org/abs/2310.00981v1
- Date: Mon, 2 Oct 2023 08:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:53:04.697571
- Title: Using Reinforcement Learning to Optimize Responses in Care Processes: A
Case Study on Aggression Incidents
- Title(参考訳): 介護過程の反応を最適化する強化学習--降着事故を事例として
- Authors: Bart J. Verhoef and Xixi Lu
- Abstract要約: ケアプロセスからイベントデータを用いてマルコフ決定プロセスのトレーニングを行う。
目標は、顧客が何らかの攻撃的な行動を見せているとき、スタッフに最適なポリシーを見つけることである。
その結果、これらのアルゴリズムから導出されたポリシーは、現在使われている最も頻繁なアクションと類似していることが判明した。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous studies have used prescriptive process monitoring to find actionable
policies in business processes and conducted case studies in similar domains,
such as the loan application process and the traffic fine process. However,
care processes tend to be more dynamic and complex. For example, at any stage
of a care process, a multitude of actions is possible. In this paper, we follow
the reinforcement approach and train a Markov decision process using event data
from a care process. The goal was to find optimal policies for staff members
when clients are displaying any type of aggressive behavior. We used the
reinforcement learning algorithms Q-learning and SARSA to find optimal
policies. Results showed that the policies derived from these algorithms are
similar to the most frequent actions currently used but provide the staff
members with a few more options in certain situations.
- Abstract(参考訳): 従来の研究では、ビジネス・プロセスで実行可能なポリシーを見つけるのに規範的なプロセスモニタリングを使用しており、ローン申請プロセスやトラフィック・ファイン・プロセスといった類似のドメインでケーススタディを実施してきた。
しかし、ケアプロセスはよりダイナミックで複雑である傾向がある。
例えば、ケアプロセスのどの段階でも、多数のアクションが可能である。
本稿では,この強化手法に従って,ケアプロセスからのイベントデータを用いてマルコフ決定過程を訓練する。
目標は、顧客があらゆるタイプの攻撃的行動を示すとき、スタッフにとって最適なポリシーを見つけることであった。
強化学習アルゴリズムq-learningとsarsaを用いて最適方針の探索を行った。
その結果、これらのアルゴリズムから得られたポリシーは、現在使われている最も頻繁なアクションと似ているが、特定の状況下では、スタッフにいくつかの選択肢を提供する。
関連論文リスト
- Process Variant Analysis Across Continuous Features: A Novel Framework [0.0]
本研究は, 業務プロセスにおけるケースの効果的セグメンテーションの課題に対処する。
本研究では,スライディングウインドウ手法と地球移動器の距離を併用して制御流の挙動変化を検出する手法を提案する。
オランダの保険会社UWVと共同で実生活事例研究を行い,その方法論を検証した。
論文 参考訳(メタデータ) (2024-05-06T16:10:13Z) - Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文 参考訳(メタデータ) (2023-03-16T10:30:36Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Detecting Surprising Situations in Event Data [0.45119235878273]
既存の研究では、望ましくない結果が発生する問題のあるプロセスインスタンスの集合が事前に知られており、容易に検出できると仮定される。
我々は,プロセス拡張領域を文脈に敏感な異常/異常検出問題として定式化する。
プロセスのパフォーマンス/アウトカムが期待と大きく異なる状況の特徴付けを目指しています。
論文 参考訳(メタデータ) (2022-08-29T11:33:58Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Prescriptive Process Monitoring: Quo Vadis? [64.39761523935613]
本論文はシステム文献レビュー(SLR)を通して,本分野における既存手法について考察する。
SLRは今後の研究の課題や分野に関する洞察を提供し、規範的なプロセス監視手法の有用性と適用性を高めることができる。
論文 参考訳(メタデータ) (2021-12-03T08:06:24Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。