論文の概要: FORLAPS: An Innovative Data-Driven Reinforcement Learning Approach for Prescriptive Process Monitoring
- arxiv url: http://arxiv.org/abs/2501.10543v1
- Date: Fri, 17 Jan 2025 20:31:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:55.918084
- Title: FORLAPS: An Innovative Data-Driven Reinforcement Learning Approach for Prescriptive Process Monitoring
- Title(参考訳): FORLAPS: 規範的プロセスモニタリングのための革新的データ駆動強化学習アプローチ
- Authors: Mostafa Abbasi, Maziyar Khadivi, Maryam Ahang, Patricia Lasserre, Yves Lucet, Homayoun Najjaran,
- Abstract要約: 本研究は,9つの公開データセットを用いた先行研究に対して,その性能をベンチマークする,革新的な評価モデルを提案する。
提案モデルであるFOLAPSは、プロセストレース内で最も最適なポリシーを提案し、最もよい次のアクティビティを予測するために、既存の最先端アプローチよりも優れたパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 3.4437362489150254
- License:
- Abstract: We present a novel 5-step framework called Fine-Tuned Offline Reinforcement Learning Augmented Process Sequence Optimization (FORLAPS), which aims to identify optimal execution paths in business processes using reinforcement learning. We implemented this approach on real-life event logs from our case study an energy regulator in Canada and other real-life event logs, demonstrating the feasibility of the proposed method. Additionally, to compare FORLAPS with the existing models (Permutation Feature Importance and multi-task LSTM-Based model), we experimented to evaluate its effectiveness in terms of resource savings and process time span reduction. The experimental results on real-life event log validate that FORLAPS achieves 31% savings in resource time spent and a 23% reduction in process time span. Using this innovative data augmentation technique, we propose a fine-tuned reinforcement learning approach that aims to automatically fine-tune the model by selectively increasing the average estimated Q-value in the sampled batches. The results show that we obtained a 44% performance improvement compared to the pre-trained model. This study introduces an innovative evaluation model, benchmarking its performance against earlier works using nine publicly available datasets. Robustness is ensured through experiments utilizing the Damerau-Levenshtein distance as the primary metric. In addition, we discussed the suitability of datasets, taking into account their inherent properties, to evaluate the performance of different models. The proposed model, FORLAPS, demonstrated exceptional performance, outperforming existing state-of-the-art approaches in suggesting the most optimal policies or predicting the best next activities within a process trace.
- Abstract(参考訳): 本稿では,FORLAPS(Fun-Tuned Offline Reinforcement Learning Augmented Process Sequence Optimization)と呼ばれる5段階のフレームワークを提案する。
本手法は,カナダにおけるエネルギーレギュレータおよび他の実生活イベントログを用いた実生活イベントログに実装し,提案手法の有効性を実証した。
さらに, FORLAPS と既存モデル (Permutation Feature Importance と Multi-task LSTM-based model) を比較し,資源節約とプロセススパン削減の両面での有効性を検証した。
実生活におけるイベントログ実験の結果、FOLAPSはリソース時間の31%の節約とプロセス時間の23%の削減を実現している。
この革新的なデータ拡張手法を用いて,サンプルバッチの平均Q値を選択的に増加させてモデルを自動的に微調整することを目的とした,微調整強化学習手法を提案する。
その結果,事前学習モデルと比較して44%の性能向上が得られた。
本研究は,9つの公開データセットを用いた先行研究に対して,その性能をベンチマークする,革新的な評価モデルを提案する。
ロバスト性はダマラウ-レブンシュテイン距離を主計量とする実験によって確保される。
さらに,その特性を考慮したデータセットの適合性について検討し,異なるモデルの性能評価を行った。
提案モデルであるFOLAPSは、プロセストレース内で最も最適なポリシーを提案し、最もよい次のアクティビティを予測するために、既存の最先端アプローチよりも優れたパフォーマンスを示した。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Refining 3D Point Cloud Normal Estimation via Sample Selection [13.207964615561261]
我々は,グローバルな情報と様々な制約機構を組み込むことにより,正規推定の基本的枠組みを導入し,既存モデルを拡張した。
また,非オブジェクト指向タスクと非オブジェクト指向タスクの両方における最先端性能を達成し,推定された非オブジェクト指向の正規性を補正するために,既存の配向手法を利用する。
論文 参考訳(メタデータ) (2024-05-20T02:06:10Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Posterior Sampling for Deep Reinforcement Learning [0.0]
本稿では, 深層強化学習のための後方サンプリング (PSDRL) について紹介する。
Atariベンチマークの実験では、PSDRLは後方サンプリングをスケールアップする従来の最先端の試行を著しく上回っている。
論文 参考訳(メタデータ) (2023-04-30T13:23:50Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。