論文の概要: An Innovative Data-Driven and Adaptive Reinforcement Learning Approach for Context-Aware Prescriptive Process Monitoring
- arxiv url: http://arxiv.org/abs/2501.10543v2
- Date: Tue, 27 May 2025 23:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:27.133809
- Title: An Innovative Data-Driven and Adaptive Reinforcement Learning Approach for Context-Aware Prescriptive Process Monitoring
- Title(参考訳): 文脈対応規範的プロセスモニタリングのための革新的データ駆動・適応型強化学習手法
- Authors: Mostafa Abbasi, Maziyar Khadivi, Maryam Ahang, Patricia Lasserre, Yves Lucet, Homayoun Najjaran,
- Abstract要約: 本稿では,Fun-Tuned Offline Reinforcement Learning Augmented Process Sequence Optimizationという新しいフレームワークを提案する。
FORLAPSは、状態依存型報酬形成機構によって強化された学習を活用して、ビジネスプロセスにおける最適な実行経路を特定することを目的としている。
また,FOLAPSは資源使用時間の31%削減,プロセス時間の23%削減を実現している。
- 参考スコア(独自算出の注目度): 3.4437362489150254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The application of artificial intelligence and machine learning in business process management has advanced significantly, however, the full potential of these technologies remains largely unexplored, primarily due to challenges related to data quality and availability. We present a novel framework called Fine-Tuned Offline Reinforcement Learning Augmented Process Sequence Optimization (FORLAPS), which aims to identify optimal execution paths in business processes by leveraging reinforcement learning enhanced with a state-dependent reward shaping mechanism, thereby enabling context-sensitive prescriptions. Additionally, to compare FORLAPS with the existing models (Permutation Feature Importance and multi-task Long Short Term Memory model), we experimented to evaluate its effectiveness in terms of resource savings and process time reduction. The experimental results on real-life event logs validate that FORLAPS achieves 31% savings in resource time spent and a 23% reduction in process time span. To further enhance learning, we introduce an innovative process-aware data augmentation technique that selectively increases the average estimated Q-values in sampled batches, enabling automatic fine-tuning of the reinforcement learning model. Robustness was assessed through both prefix-level and trace-level evaluations, using the Damerau-Levenshtein distance as the primary metric. Finally, the model's adaptability across industries was further validated through diverse case studies, including healthcare treatment pathways, financial services workflows, permit applications from regulatory bodies, and operations management. In each domain, the proposed model demonstrated exceptional performance, outperforming existing state-of-the-art approaches in prescriptive decision-making, demonstrating its capability to prescribe optimal next steps and predict the best next activities within a process trace.
- Abstract(参考訳): ビジネス・プロセス・マネジメントにおける人工知能と機械学習の応用は著しく進歩しているが、データ品質と可用性に関する課題が主な原因で、これらの技術の潜在能力は未解明のままである。
本研究では,FORLAPS(Fin-Tuned Offline Reinforcement Learning Augmented Process Sequence Optimization)と呼ばれる新しいフレームワークを提案する。
さらに, FORLAPS と既存モデル (Permutation Feature Importance と Multi-task Long Term Memory モデル) を比較し,資源節約とプロセス時間短縮の観点からその有効性を評価する実験を行った。
実生活イベントログの実験結果から、FOLAPSはリソース時間の31%の節約とプロセス時間の23%の削減を実現している。
学習をさらに強化するために,サンプルバッチの平均Q値を選択的に増加させ,強化学習モデルの自動微調整を可能にする,革新的なプロセス認識データ拡張手法を導入する。
ロバストネスはプレフィックスレベルとトレースレベルの両方で評価され、ダマラウ-レブンシュテイン距離を主指標とした。
最後に、業界におけるモデルの適応性は、医療治療経路、金融サービスワークフロー、規制機関からのアプリケーションの許可、運用管理など、さまざまなケーススタディを通じてさらに検証された。
提案手法は,各領域において異常な性能を示し,既存の最先端の意思決定手法よりも優れた性能を示し,プロセストレース内での最適な次のステップを規定し,最もよい次のアクティビティを予測する能力を示した。
関連論文リスト
- ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。
提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Refining 3D Point Cloud Normal Estimation via Sample Selection [13.207964615561261]
我々は,グローバルな情報と様々な制約機構を組み込むことにより,正規推定の基本的枠組みを導入し,既存モデルを拡張した。
また,非オブジェクト指向タスクと非オブジェクト指向タスクの両方における最先端性能を達成し,推定された非オブジェクト指向の正規性を補正するために,既存の配向手法を利用する。
論文 参考訳(メタデータ) (2024-05-20T02:06:10Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - L3 Ensembles: Lifelong Learning Approach for Ensemble of Foundational
Language Models [15.726224465017596]
本稿では、未知のデータから意味のある表現を抽出し、構造化知識ベースを構築することに焦点を当てたアプローチを提案する。
我々は,GLUE や SuperGLUE などのベンチマークを含む様々な NLP タスクの有効性を検証する実験を行った。
提案したL3アンサンブル法は、細調整されたFLMと比較してモデル精度を4%36%向上させる。
論文 参考訳(メタデータ) (2023-11-11T06:59:50Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Posterior Sampling for Deep Reinforcement Learning [0.0]
本稿では, 深層強化学習のための後方サンプリング (PSDRL) について紹介する。
Atariベンチマークの実験では、PSDRLは後方サンプリングをスケールアップする従来の最先端の試行を著しく上回っている。
論文 参考訳(メタデータ) (2023-04-30T13:23:50Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。