Fugu-MT 論文翻訳(概要): Joint Pricing and Resource Allocation: An Optimal Online-Learning Approach

論文の概要: Joint Pricing and Resource Allocation: An Optimal Online-Learning Approach

arxiv url: http://arxiv.org/abs/2501.18049v1
Date: Wed, 29 Jan 2025 23:23:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:03.986428
Title: Joint Pricing and Resource Allocation: An Optimal Online-Learning Approach
Title（参考訳）: 共同価格と資源配分: 最適オンライン学習アプローチ
Authors: Jianyu Xu, Xuan Wang, Yu-Xiang Wang, Jiashuo Jiang,
Abstract要約: ネット全体の利益を最大化するために、価格と在庫を共同で決定するオンライン学習の地平について検討する。我々は,複数のOCO上での信頼境界戦略を利用した効率的なアルゴリズムを開発した。
参考スコア（独自算出の注目度）: 20.70943884841438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study an online learning problem on dynamic pricing and resource allocation, where we make joint pricing and inventory decisions to maximize the overall net profit. We consider the stochastic dependence of demands on the price, which complicates the resource allocation process and introduces significant non-convexity and non-smoothness to the problem. To solve this problem, we develop an efficient algorithm that utilizes a "Lower-Confidence Bound (LCB)" meta-strategy over multiple OCO agents. Our algorithm achieves $\tilde{O}(\sqrt{Tmn})$ regret (for $m$ suppliers and $n$ consumers), which is optimal with respect to the time horizon $T$. Our results illustrate an effective integration of statistical learning methodologies with complex operations research problems.
Abstract（参考訳）: 我々は、動的価格と資源配分に関するオンライン学習問題について検討し、全体の純利益を最大化するために、共同価格と在庫決定を行う。本稿では,資源配分過程を複雑にし,非凸性や非平滑性を導入した価格に対する需要の確率的依存を考察する。この問題を解決するために,複数のOCOエージェント上での"Low-Confidence Bound (LCB)"メタストラテジーを用いた効率的なアルゴリズムを開発した。我々のアルゴリズムは、$\tilde{O}(\sqrt{Tmn})$ regret($m$サプライヤーと$n$コンシューマ)を達成する。本研究は,統計的学習手法と複雑な操作研究課題を効果的に統合するものである。

関連論文リスト

Learning Optimal and Sample-Efficient Decision Policies with Guarantees [3.096615629099617]
この論文は、隠れた共同創設者の存在下で、オフラインデータセットから学ぶことの問題を解決する。コンバージェンスと最適性を保証する条件付きモーメント制約問題の解法として,サンプル効率のアルゴリズムを導出する。また,収束率保証を伴う効果的な模倣者ポリシーを学習するアルゴリズムも開発している。
論文参考訳（メタデータ） (2026-02-20T04:24:49Z)
Online Dynamic Pricing of Complementary Products [45.90621357073487]
本稿では,製品需要間の正負の相互作用を考慮したオンライン学習アルゴリズムを提案する。当社のソリューションは、このようなインタラクションを無視した、同等の学習アルゴリズムであるWr.t.を改良する。
論文参考訳（メタデータ） (2025-11-27T10:12:51Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Learning to Price with Resource Constraints: From Full Information to Machine-Learned Prices [13.68761797358598]
我々はknapsackによる動的価格問題について検討し、資源制約下での探索と利用のバランスをとることの課題に対処する。本稿では, 事前情報を持たないシナリオを対象としたオンライン学習アルゴリズムと, 予測誤りを既知の上限付きマシン学習情報量を利用した推定-then-select re-solveアルゴリズムの3つのアルゴリズムを紹介する。
論文参考訳（メタデータ） (2025-01-24T00:46:52Z)
Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文参考訳（メタデータ） (2024-12-21T10:18:55Z)
Deep Generative Demand Learning for Newsvendor and Pricing [7.594251468240168]
我々は、機能ベースのニュースベンダ問題において、データ駆動の在庫と価格決定について検討する。本稿では,これらの課題に対処するために条件付き深層生成モデル(cDGM)を活用する新しいアプローチを提案する。我々は、利益予測の整合性や最適解への決定の収束など、我々のアプローチに対する理論的保証を提供する。
論文参考訳（メタデータ） (2024-11-13T14:17:26Z)
Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文参考訳（メタデータ） (2024-07-01T16:53:00Z)
A Bandit Approach to Online Pricing for Heterogeneous Edge Resource Allocation [8.089950414444115]
ヘテロジニアスなエッジリソース割り当てのための2つの新しいオンライン価格設定機構が提案されている。このメカニズムはリアルタイムで動作し、需要分布に関する事前の知識を必要としない。提案した価格体系では, 利用者が好みのリソースを選択し, 支払うことができ, 観測された履歴データに基づいて動的に資源価格を調整できる。
論文参考訳（メタデータ） (2023-02-14T10:21:14Z)
Network Revenue Management with Demand Learning and Fair Resource-Consumption Balancing [16.37657820732206]
本稿では,需要学習と公平な資源消費バランスの両面から,価格に基づくネットワーク収益管理(NRM)問題について検討する。正規化収益を最大化するために,UCB (Upper-Confidence-Bound) 要求学習手法を用いた原始二重型オンラインポリシーを提案する。我々のアルゴリズムは、$widetilde O(N5/2sqrtT)$の最悪の後悔を達成し、$N$は製品数を表し、$T$は期間数を表す。
論文参考訳（メタデータ） (2022-07-22T15:55:49Z)
Understanding Curriculum Learning in Policy Optimization for Online Combinatorial Optimization [66.35750142827898]
本稿では,オンラインCO問題に対するポリシー最適化手法に関する最初の体系的研究について述べる。我々は、オンラインCO問題は、潜在マルコフ決定過程(LMDP)として自然に定式化でき、自然政策勾配(NPG)に収束することを示す。さらに,本理論はカリキュラム学習の利点を解説し,強力なサンプリングポリシーを見出すことができ,流通シフトを低減できることを示した。
論文参考訳（メタデータ） (2022-02-11T03:17:15Z)
Computation Resource Allocation Solution in Recommender Systems [19.456109814747048]
限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案します。本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。
論文参考訳（メタデータ） (2021-03-03T08:41:43Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
Resource Allocation via Model-Free Deep Learning in Free Space Optical Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-27T17:38:51Z)
Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文参考訳（メタデータ） (2020-07-01T14:24:58Z)
Hierarchical Adaptive Contextual Bandits for Resource Constraint based Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文参考訳（メタデータ） (2020-04-02T17:04:52Z)
Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文参考訳（メタデータ） (2020-03-06T06:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。