論文の概要: Learning to act: a Reinforcement Learning approach to recommend the best
next activities
- arxiv url: http://arxiv.org/abs/2203.15398v1
- Date: Tue, 29 Mar 2022 09:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 01:17:41.612703
- Title: Learning to act: a Reinforcement Learning approach to recommend the best
next activities
- Title(参考訳): 行動への学習: ベストな次のアクティビティを推奨する強化学習アプローチ
- Authors: Stefano Branchi, Chiara Di Francescomarino, Chiara Ghidini, David
Massimo, Francesco Ricci and Massimiliano Ronzani
- Abstract要約: 本稿では,過去の実行を観察する上で最適な政策である強化学習を用いて学習するアプローチについて検討する。
このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。
- 参考スコア(独自算出の注目度): 4.511664266033014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of process data availability has led in the last decade to the
development of several data-driven learning approaches. However, most of these
approaches limit themselves to use the learned model to predict the future of
ongoing process executions. The goal of this paper is moving a step forward and
leveraging data with the purpose of learning to act by supporting users with
recommendations for the best strategy to follow, in order to optimize a measure
of performance. In this paper, we take the (optimization) perspective of one
process actor and we recommend the best activities to execute next, in response
to what happens in a complex external environment, where there is no control on
exogenous factors. To this aim, we investigate an approach that learns, by
means of Reinforcement Learning, an optimal policy from the observation of past
executions and recommends the best activities to carry on for optimizing a Key
Performance Indicator of interest. The potentiality of the approach has been
demonstrated on two scenarios taken from real-life data.
- Abstract(参考訳): プロセスデータ可用性の上昇は、過去10年間にいくつかのデータ駆動学習アプローチの開発につながった。
しかしながら、これらのアプローチのほとんどは、進行中のプロセス実行の将来を予測するために学習モデルを使用することに制限されている。
本研究の目的は、パフォーマンスの指標を最適化するために、ユーザに最良戦略を推奨することで、行動を学ぶことを目的として、一歩前進し、データを活用することである。
本稿では,1つのプロセスアクターの(最適化)視点を捉え,外因性要因を制御できない複雑な外部環境において何が起こるかに応じて,次に実行する最善のアクティビティを推奨する。
本研究の目的は,過去の実行を観察する上で最適な政策である強化学習を用いて学習し,重要なパフォーマンス指標を最適化するための最善の行動を提案するアプローチを検討することである。
このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。
関連論文リスト
- Optimal Execution with Reinforcement Learning [0.4972323953932129]
本研究では,強化学習による最適実行戦略の開発について検討する。
本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
論文 参考訳(メタデータ) (2024-11-10T08:21:03Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文 参考訳(メタデータ) (2023-03-16T10:30:36Z) - Efficient Real-world Testing of Causal Decision Making via Bayesian
Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。
過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文 参考訳(メタデータ) (2022-07-12T01:20:11Z) - Goal-Oriented Next Best Activity Recommendation using Reinforcement
Learning [4.128679340077271]
目標指向の次善行動推薦フレームワークを提案する。
ディープラーニングモデルは、そのアクティビティが与えられた次の最高のアクティビティと、目標の見積値を予測する。
強化学習法では,1つ以上の目標を達成する可能性のある推定値に基づいて,アクティビティのシーケンスを探索する。
論文 参考訳(メタデータ) (2022-05-06T13:48:14Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Recommendation Fairness: From Static to Dynamic [12.080824433982993]
推薦のための強化学習手法に公平性を組み込む方法について論じる。
我々は、推薦公正性をさらに前進させるために、マルチエージェント(ゲーム理論)最適化、マルチオブジェクト(パレート)最適化を検討すべきかもしれないと論じる。
論文 参考訳(メタデータ) (2021-09-05T21:38:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。