論文の概要: Joint Pricing and Resource Allocation: An Optimal Online-Learning Approach
- arxiv url: http://arxiv.org/abs/2501.18049v1
- Date: Wed, 29 Jan 2025 23:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:28.679665
- Title: Joint Pricing and Resource Allocation: An Optimal Online-Learning Approach
- Title(参考訳): 共同価格と資源配分: 最適オンライン学習アプローチ
- Authors: Jianyu Xu, Xuan Wang, Yu-Xiang Wang, Jiashuo Jiang,
- Abstract要約: ネット全体の利益を最大化するために、価格と在庫を共同で決定するオンライン学習の地平について検討する。
我々は,複数のOCO上での信頼境界戦略を利用した効率的なアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 20.70943884841438
- License:
- Abstract: We study an online learning problem on dynamic pricing and resource allocation, where we make joint pricing and inventory decisions to maximize the overall net profit. We consider the stochastic dependence of demands on the price, which complicates the resource allocation process and introduces significant non-convexity and non-smoothness to the problem. To solve this problem, we develop an efficient algorithm that utilizes a "Lower-Confidence Bound (LCB)" meta-strategy over multiple OCO agents. Our algorithm achieves $\tilde{O}(\sqrt{Tmn})$ regret (for $m$ suppliers and $n$ consumers), which is optimal with respect to the time horizon $T$. Our results illustrate an effective integration of statistical learning methodologies with complex operations research problems.
- Abstract(参考訳): 我々は、動的価格と資源配分に関するオンライン学習問題について検討し、全体の純利益を最大化するために、共同価格と在庫決定を行う。
本稿では,資源配分過程を複雑にし,非凸性や非平滑性を導入した価格に対する需要の確率的依存を考察する。
この問題を解決するために,複数のOCOエージェント上での"Low-Confidence Bound (LCB)"メタストラテジーを用いた効率的なアルゴリズムを開発した。
我々のアルゴリズムは、$\tilde{O}(\sqrt{Tmn})$ regret($m$サプライヤーと$n$コンシューマ)を達成する。
本研究は,統計的学習手法と複雑な操作研究課題を効果的に統合するものである。
関連論文リスト
- Deep Generative Demand Learning for Newsvendor and Pricing [7.594251468240168]
我々は、機能ベースのニュースベンダ問題において、データ駆動の在庫と価格決定について検討する。
本稿では,これらの課題に対処するために条件付き深層生成モデル(cDGM)を活用する新しいアプローチを提案する。
我々は、利益予測の整合性や最適解への決定の収束など、我々のアプローチに対する理論的保証を提供する。
論文 参考訳(メタデータ) (2024-11-13T14:17:26Z) - Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Optimizing Inventory Routing: A Decision-Focused Learning Approach using
Neural Networks [0.0]
我々は、現実世界のIRPを解決するための意思決定に基づくアプローチを定式化し、提案する。
このアプローチは、在庫予測とルーティング最適化を直接エンドツーエンドシステムに統合することで、堅牢なサプライチェーン戦略を保証する可能性がある。
論文 参考訳(メタデータ) (2023-11-02T04:05:28Z) - A Bandit Approach to Online Pricing for Heterogeneous Edge Resource
Allocation [8.089950414444115]
ヘテロジニアスなエッジリソース割り当てのための2つの新しいオンライン価格設定機構が提案されている。
このメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。
提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。
論文 参考訳(メタデータ) (2023-02-14T10:21:14Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Computation Resource Allocation Solution in Recommender Systems [19.456109814747048]
限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案します。
本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。
論文 参考訳(メタデータ) (2021-03-03T08:41:43Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。