論文の概要: Online Learning in Supply-Chain Games
- arxiv url: http://arxiv.org/abs/2207.04054v1
- Date: Fri, 8 Jul 2022 14:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 15:38:00.768615
- Title: Online Learning in Supply-Chain Games
- Title(参考訳): サプライチェーンゲームにおけるオンライン学習
- Authors: Nicol\`o Cesa-Bianchi, Tommaso Cesari, Takayuki Osogami, Marco
Scarsini, Segev Wasserkrug
- Abstract要約: 問題パラメータを十分に知ることなく、各利益を最大化したい小売業者とサプライヤーの繰り返しゲームについて検討する。
需要と生産コストの連立分布に関する部分的知識がなくても、自然学習のダイナミクスは共同戦略の収束を保証することを示す。
我々はまた、サプライヤーの後悔と小売業者の後悔に有限時間制限があることを証明し、特定のレートはプレイヤーが予め利用可能な知識の種類に依存する。
- 参考スコア(独自算出の注目度): 12.622532564695536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a repeated game between a supplier and a retailer who want to
maximize their respective profits without full knowledge of the problem
parameters. After characterizing the uniqueness of the Stackelberg equilibrium
of the stage game with complete information, we show that even with partial
knowledge of the joint distribution of demand and production costs, natural
learning dynamics guarantee convergence of the joint strategy profile of
supplier and retailer to the Stackelberg equilibrium of the stage game. We also
prove finite-time bounds on the supplier's regret and asymptotic bounds on the
retailer's regret, where the specific rates depend on the type of knowledge
preliminarily available to the players. In the special case when the supplier
is not strategic (vertical integration), we prove optimal finite-time regret
bounds on the retailer's regret (or, equivalently, the social welfare) when
costs and demand are adversarially generated and the demand is censored.
- Abstract(参考訳): 問題パラメータを十分に知ることなく、各利益を最大化したい小売業者とサプライヤーの繰り返しゲームについて検討する。
ステージゲームにおけるスタッケルバーグ均衡の一意性を完全な情報で特徴付けることで,需要と生産コストの同時分配に関する部分的な知識を生かしても,サプライヤと小売業者の合同戦略プロファイルをステージゲームのスタッケルバーグ均衡に収束させることが自然学習ダイナミクスによって保証されることを示した。
また,サプライヤの後悔や漸近的な限界,小売業者の後悔にも有限時間境界があることも証明する。
特に、サプライヤーが戦略的でない場合(垂直統合)、コストと需要が逆らって発生し、需要が検閲された場合、小売店の後悔(または社会福祉)に最適な有限時間後悔の限界を証明します。
関連論文リスト
- Barriers to Welfare Maximization with No-Regret Learning [68.66209476382213]
我々は、ほぼ最適の$T$-sparse CCEの計算限界を低く証明する。
特に,最大傾斜角の不適応性は,時間内に非自明な間隔を達成できないことを示す。
論文 参考訳(メタデータ) (2024-11-04T00:34:56Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Online Learning for Equilibrium Pricing in Markets under Incomplete
Information [5.092028049119383]
不完全な情報設定における均衡価格設定の問題を考える。
我々は3つのパフォーマンス指標、すなわち不需要、コストの後悔、支払いの後悔を共同で最適化する。
この拡張環境では,サブ線形後悔を伴うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-21T00:53:37Z) - Learning to Price Supply Chain Contracts against a Learning Retailer [3.7814216736076434]
データ駆動型サプライヤが直面するサプライチェーン契約設計問題について検討する。
サプライヤーも小売業者も市場の需要について不透明だ。
これらすべてのケースにおいて、私たちの価格ポリシーがサブリニアな後悔の限界につながることが示されています。
論文 参考訳(メタデータ) (2022-11-02T04:00:47Z) - Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games [85.78272987312343]
我々は、効率よく非結合な学習力学を確立し、各プレイヤーのトリガー後悔は、プレイの繰り返しの後に$O(log T)$として成長する。
これにより、これまでよく知られていた$O(T1/4)$よりも指数関数的に改善される。
論文 参考訳(メタデータ) (2022-08-20T20:48:58Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - A Simulation Environment and Reinforcement Learning Method for Waste
Reduction [50.545552995521774]
本稿では, 流通の観点から, 食料品店の在庫を消耗品で補充する際の問題点を考察する。
目的は、ごみを最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。
我々は, エージェントの行動に合わせた行動を示す新しい強化学習タスクとして, 在庫再備の枠組みを定めている。
論文 参考訳(メタデータ) (2022-05-30T22:48:57Z) - Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。
当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文 参考訳(メタデータ) (2022-02-28T12:10:48Z) - Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。
Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T11:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。