論文の概要: Sales Time Series Analytics Using Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2201.02058v1
- Date: Thu, 6 Jan 2022 13:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 14:17:34.258125
- Title: Sales Time Series Analytics Using Deep Q-Learning
- Title(参考訳): ディープQラーニングを用いた販売時系列分析
- Authors: Bohdan M. Pavlyshenko
- Abstract要約: この記事では、営業時系列分析の問題における深いQ-ラーニングモデルの使用について説明する。
この研究の主な考え方は、時系列分析において深いQ-ラーニングアプローチを用いることで、アクションのシーケンスを最適化できることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The article describes the use of deep Q-learning models in the problems of
sales time series analytics. In contrast to supervised machine learning which
is a kind of passive learning using historical data, Q-learning is a kind of
active learning with goal to maximize a reward by optimal sequence of actions.
Model free Q-learning approach for optimal pricing strategies and supply-demand
problems was considered in the work. The main idea of the study is to show that
using deep Q-learning approach in time series analytics, the sequence of
actions can be optimized by maximizing the reward function when the environment
for learning agent interaction can be modeled using the parametric model and in
the case of using the model which is based on the historical data. In the
pricing optimizing case study environment was modeled using sales dependence on
extras price and randomly simulated demand. In the pricing optimizing case
study, the environment was modeled using sales dependence on extra price and
randomly simulated demand. In the supply-demand case study, it was proposed to
use historical demand time series for environment modeling, agent states were
represented by promo actions, previous demand values and weekly seasonality
features. Obtained results show that using deep Q-learning, we can optimize the
decision making process for price optimization and supply-demand problems.
Environment modeling using parametric models and historical data can be used
for the cold start of learning agent. On the next steps, after the cold start,
the trained agent can be used in real business environment.
- Abstract(参考訳): この記事では、営業時系列分析の問題における深いQ-ラーニングモデルの使用について説明する。
歴史的データを用いた受動的学習の一種である教師付き機械学習とは対照的に、Q-ラーニングは行動の最適な順序による報酬の最大化を目標とするアクティブラーニングの一種である。
最適価格戦略と供給需要問題に対するモデル自由Q-ラーニング手法を検討した。
本研究の主なアイデアは,時系列分析における深いq-learningアプローチを用いることで,エージェントインタラクションの学習環境をパラメトリックモデルを用いてモデル化し,履歴データに基づくモデルを用いた場合,報酬関数を最大化することで,アクションのシーケンスを最適化できることを示すことである。
価格最適化のケーススタディ環境は,販売価格とランダムにシミュレートされた需要に依存してモデル化された。
価格最適化ケーススタディでは、追加価格とランダムにシミュレーションされた需要による販売依存を用いて環境をモデル化した。
需給ケーススタディでは,環境モデリングに歴史的需要時系列を用いることが提案され,エージェント状態はプロモアクション,以前の需要値,週ごとの季節的特徴によって表現された。
得られた結果から,q学習の深化により,価格最適化や需給問題に対する意思決定プロセスを最適化できることが示された。
学習エージェントのコールドスタートにパラメトリックモデルと履歴データを用いた環境モデリングを用いることができる。
次のステップでは、コールドスタート後に、トレーニングされたエージェントを実際のビジネス環境で使用できる。
関連論文リスト
- A Utility-Mining-Driven Active Learning Approach for Analyzing Clickstream Sequences [21.38368444137596]
本研究では、SHAP値(HUSPM-SHAP)モデルを用いた高ユーティリティシーケンスパターンマイニングを提案する。
本研究は,電子商取引データ処理を改良し,より合理化され,コスト効率のよい予測モデルに向けたモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-10-09T10:44:02Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Green Runner: A tool for efficient deep learning component selection [0.76146285961466]
本稿では、自然言語で提供されるアプリケーションシナリオに基づいて、モデルを自動的に選択し、評価する新しいツールであるToolnameを提案する。
ツールネームは、問題に基づく制約とトレードオフをモデル選択プロセスに統合する、リソース効率のよい実験エンジンを備えている。
論文 参考訳(メタデータ) (2024-01-29T00:15:50Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Sampling Strategy for Fine-Tuning Segmentation Models to Crisis Area
under Scarcity of Data [0.76146285961466]
本研究では,推定モデルとサンプル特性に基づいて,微調整中のデータ収集をガイドする手法を提案する。
我々は,ビルディング検出のリモートセンシングアプリケーションにおいて,セマンティックセグメンテーション(U-Net)の深層学習モデルに適用した。
論文 参考訳(メタデータ) (2022-02-09T23:16:58Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - A Data-driven Market Simulator for Small Data Environments [0.5872014229110214]
ニューラルネットワークに基づくデータ駆動市場シミュレーションは、金融時系列をモデリングする新しいフレキシブルな方法を公開する。
本稿では,財務時系列のエンコーディングと評価を行う強力な方法として,大まかなパスパースペクティブと擬似変分自動エンコーダフレームワークが組み合わさった方法を示す。
論文 参考訳(メタデータ) (2020-06-21T14:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。