論文の概要: Learning to act: a Reinforcement Learning approach to recommend the best
next activities
- arxiv url: http://arxiv.org/abs/2203.15398v1
- Date: Tue, 29 Mar 2022 09:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 01:17:41.612703
- Title: Learning to act: a Reinforcement Learning approach to recommend the best
next activities
- Title(参考訳): 行動への学習: ベストな次のアクティビティを推奨する強化学習アプローチ
- Authors: Stefano Branchi, Chiara Di Francescomarino, Chiara Ghidini, David
Massimo, Francesco Ricci and Massimiliano Ronzani
- Abstract要約: 本稿では,過去の実行を観察する上で最適な政策である強化学習を用いて学習するアプローチについて検討する。
このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。
- 参考スコア(独自算出の注目度): 4.511664266033014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of process data availability has led in the last decade to the
development of several data-driven learning approaches. However, most of these
approaches limit themselves to use the learned model to predict the future of
ongoing process executions. The goal of this paper is moving a step forward and
leveraging data with the purpose of learning to act by supporting users with
recommendations for the best strategy to follow, in order to optimize a measure
of performance. In this paper, we take the (optimization) perspective of one
process actor and we recommend the best activities to execute next, in response
to what happens in a complex external environment, where there is no control on
exogenous factors. To this aim, we investigate an approach that learns, by
means of Reinforcement Learning, an optimal policy from the observation of past
executions and recommends the best activities to carry on for optimizing a Key
Performance Indicator of interest. The potentiality of the approach has been
demonstrated on two scenarios taken from real-life data.
- Abstract(参考訳): プロセスデータ可用性の上昇は、過去10年間にいくつかのデータ駆動学習アプローチの開発につながった。
しかしながら、これらのアプローチのほとんどは、進行中のプロセス実行の将来を予測するために学習モデルを使用することに制限されている。
本研究の目的は、パフォーマンスの指標を最適化するために、ユーザに最良戦略を推奨することで、行動を学ぶことを目的として、一歩前進し、データを活用することである。
本稿では,1つのプロセスアクターの(最適化)視点を捉え,外因性要因を制御できない複雑な外部環境において何が起こるかに応じて,次に実行する最善のアクティビティを推奨する。
本研究の目的は,過去の実行を観察する上で最適な政策である強化学習を用いて学習し,重要なパフォーマンス指標を最適化するための最善の行動を提案するアプローチを検討することである。
このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。
関連論文リスト
- Trial and Error: Exploration-Based Trajectory Optimization for LLM
Agents [52.82856458995437]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Data Management For Large Language Models: A Survey [66.59562797566163]
大規模言語モデル(LLM)の訓練におけるデータの役割
本調査は,LLMの事前学習および教師付き微調整段階におけるデータ管理の現状を概観する。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文 参考訳(メタデータ) (2023-03-16T10:30:36Z) - Bootstrap Advantage Estimation for Policy Optimization in Reinforcement
Learning [16.999444076456268]
本稿では,政策最適化のためのデータ拡張に基づく利点推定手法を提案する。
本手法では,ブートストラップの利点推定の計算にデータ拡張を用いる。
提案手法は,一般化された優位性推定よりも,ポリシと値損失を低減させる。
論文 参考訳(メタデータ) (2022-10-13T19:30:43Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Goal-Oriented Next Best Activity Recommendation using Reinforcement
Learning [4.128679340077271]
目標指向の次善行動推薦フレームワークを提案する。
ディープラーニングモデルは、そのアクティビティが与えられた次の最高のアクティビティと、目標の見積値を予測する。
強化学習法では,1つ以上の目標を達成する可能性のある推定値に基づいて,アクティビティのシーケンスを探索する。
論文 参考訳(メタデータ) (2022-05-06T13:48:14Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Recommendation Fairness: From Static to Dynamic [12.080824433982993]
推薦のための強化学習手法に公平性を組み込む方法について論じる。
我々は、推薦公正性をさらに前進させるために、マルチエージェント(ゲーム理論)最適化、マルチオブジェクト(パレート)最適化を検討すべきかもしれないと論じる。
論文 参考訳(メタデータ) (2021-09-05T21:38:05Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。