Fugu-MT 論文翻訳(概要): Learning to act: a Reinforcement Learning approach to recommend the best next activities

論文の概要: Learning to act: a Reinforcement Learning approach to recommend the best next activities

arxiv url: http://arxiv.org/abs/2203.15398v1
Date: Tue, 29 Mar 2022 09:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 01:17:41.612703
Title: Learning to act: a Reinforcement Learning approach to recommend the best next activities
Title（参考訳）: 行動への学習: ベストな次のアクティビティを推奨する強化学習アプローチ
Authors: Stefano Branchi, Chiara Di Francescomarino, Chiara Ghidini, David Massimo, Francesco Ricci and Massimiliano Ronzani
Abstract要約: 本稿では,過去の実行を観察する上で最適な政策である強化学習を用いて学習するアプローチについて検討する。このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。
参考スコア（独自算出の注目度）: 4.511664266033014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rise of process data availability has led in the last decade to the development of several data-driven learning approaches. However, most of these approaches limit themselves to use the learned model to predict the future of ongoing process executions. The goal of this paper is moving a step forward and leveraging data with the purpose of learning to act by supporting users with recommendations for the best strategy to follow, in order to optimize a measure of performance. In this paper, we take the (optimization) perspective of one process actor and we recommend the best activities to execute next, in response to what happens in a complex external environment, where there is no control on exogenous factors. To this aim, we investigate an approach that learns, by means of Reinforcement Learning, an optimal policy from the observation of past executions and recommends the best activities to carry on for optimizing a Key Performance Indicator of interest. The potentiality of the approach has been demonstrated on two scenarios taken from real-life data.
Abstract（参考訳）: プロセスデータ可用性の上昇は、過去10年間にいくつかのデータ駆動学習アプローチの開発につながった。しかしながら、これらのアプローチのほとんどは、進行中のプロセス実行の将来を予測するために学習モデルを使用することに制限されている。本研究の目的は、パフォーマンスの指標を最適化するために、ユーザに最良戦略を推奨することで、行動を学ぶことを目的として、一歩前進し、データを活用することである。本稿では,1つのプロセスアクターの(最適化)視点を捉え,外因性要因を制御できない複雑な外部環境において何が起こるかに応じて,次に実行する最善のアクティビティを推奨する。本研究の目的は,過去の実行を観察する上で最適な政策である強化学習を用いて学習し,重要なパフォーマンス指標を最適化するための最善の行動を提案するアプローチを検討することである。このアプローチの可能性は、実生活データから得られた2つのシナリオで実証されている。

関連論文リスト

Slow Thinking for Sequential Recommendation [88.46598279655575]
本稿では,STREAM-Recという新しいスローシンキングレコメンデーションモデルを提案する。弊社のアプローチは、過去のユーザの振る舞いを分析し、多段階の熟考的推論プロセスを生成し、パーソナライズされたレコメンデーションを提供する。具体的には,(1)レコメンデーションシステムにおける適切な推論パターンを特定すること,(2)従来のレコメンデーションシステムの推論能力を効果的に刺激する方法を検討すること,の2つの課題に焦点を当てる。
論文参考訳（メタデータ） (2025-04-13T15:53:30Z)
Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文参考訳（メタデータ） (2025-03-28T04:22:53Z)
Generative Large Recommendation Models: Emerging Trends in LLMs for Recommendation [85.52251362906418]
このチュートリアルでは、大規模言語モデル(LLM)を統合するための2つの主要なアプローチを探求する。これは、最近の進歩、課題、潜在的研究の方向性を含む、生成的な大規模なレコメンデーションモデルの包括的な概要を提供する。主なトピックは、データ品質、スケーリング法則、ユーザの行動マイニング、トレーニングと推論の効率性である。
論文参考訳（メタデータ） (2025-02-19T14:48:25Z)
FORLAPS: An Innovative Data-Driven Reinforcement Learning Approach for Prescriptive Process Monitoring [3.4437362489150254]
本研究は,9つの公開データセットを用いた先行研究に対して,その性能をベンチマークする,革新的な評価モデルを提案する。提案モデルであるFOLAPSは、プロセストレース内で最も最適なポリシーを提案し、最もよい次のアクティビティを予測するために、既存の最先端アプローチよりも優れたパフォーマンスを示した。
論文参考訳（メタデータ） (2025-01-17T20:31:35Z)
Optimal Execution with Reinforcement Learning [0.4972323953932129]
本研究では,強化学習による最適実行戦略の開発について検討する。本稿では,独自のMDPの定式化を行い,提案手法の結果を確認し,標準実行戦略に対して性能をベンチマークする。
論文参考訳（メタデータ） (2024-11-10T08:21:03Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
DRDT: Dynamic Reflection with Divergent Thinking for LLM-based Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。 6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文参考訳（メタデータ） (2023-12-18T16:41:22Z)
Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文参考訳（メタデータ） (2023-03-16T10:30:36Z)
Efficient Real-world Testing of Causal Decision Making via Bayesian Experimental Design for Contextual Optimisation [12.37745209793872]
文脈的意思決定の評価と改善のためのデータ収集のためのモデルに依存しないフレームワークを提案する。過去の治療課題の後悔をデータ効率で評価するために,本手法を用いた。
論文参考訳（メタデータ） (2022-07-12T01:20:11Z)
Goal-Oriented Next Best Activity Recommendation using Reinforcement Learning [4.128679340077271]
目標指向の次善行動推薦フレームワークを提案する。ディープラーニングモデルは、そのアクティビティが与えられた次の最高のアクティビティと、目標の見積値を予測する。強化学習法では,1つ以上の目標を達成する可能性のある推定値に基づいて,アクティビティのシーケンスを探索する。
論文参考訳（メタデータ） (2022-05-06T13:48:14Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Recommendation Fairness: From Static to Dynamic [12.080824433982993]
推薦のための強化学習手法に公平性を組み込む方法について論じる。我々は、推薦公正性をさらに前進させるために、マルチエージェント(ゲーム理論)最適化、マルチオブジェクト(パレート)最適化を検討すべきかもしれないと論じる。
論文参考訳（メタデータ） (2021-09-05T21:38:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。