Fugu-MT 論文翻訳(概要): Online Learning in Supply-Chain Games

論文の概要: Online Learning in Supply-Chain Games

arxiv url: http://arxiv.org/abs/2207.04054v1
Date: Fri, 8 Jul 2022 14:45:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 15:38:00.768615
Title: Online Learning in Supply-Chain Games
Title（参考訳）: サプライチェーンゲームにおけるオンライン学習
Authors: Nicol\`o Cesa-Bianchi, Tommaso Cesari, Takayuki Osogami, Marco Scarsini, Segev Wasserkrug
Abstract要約: 問題パラメータを十分に知ることなく、各利益を最大化したい小売業者とサプライヤーの繰り返しゲームについて検討する。需要と生産コストの連立分布に関する部分的知識がなくても、自然学習のダイナミクスは共同戦略の収束を保証することを示す。我々はまた、サプライヤーの後悔と小売業者の後悔に有限時間制限があることを証明し、特定のレートはプレイヤーが予め利用可能な知識の種類に依存する。
参考スコア（独自算出の注目度）: 12.622532564695536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study a repeated game between a supplier and a retailer who want to maximize their respective profits without full knowledge of the problem parameters. After characterizing the uniqueness of the Stackelberg equilibrium of the stage game with complete information, we show that even with partial knowledge of the joint distribution of demand and production costs, natural learning dynamics guarantee convergence of the joint strategy profile of supplier and retailer to the Stackelberg equilibrium of the stage game. We also prove finite-time bounds on the supplier's regret and asymptotic bounds on the retailer's regret, where the specific rates depend on the type of knowledge preliminarily available to the players. In the special case when the supplier is not strategic (vertical integration), we prove optimal finite-time regret bounds on the retailer's regret (or, equivalently, the social welfare) when costs and demand are adversarially generated and the demand is censored.
Abstract（参考訳）: 問題パラメータを十分に知ることなく、各利益を最大化したい小売業者とサプライヤーの繰り返しゲームについて検討する。ステージゲームにおけるスタッケルバーグ均衡の一意性を完全な情報で特徴付けることで,需要と生産コストの同時分配に関する部分的な知識を生かしても,サプライヤと小売業者の合同戦略プロファイルをステージゲームのスタッケルバーグ均衡に収束させることが自然学習ダイナミクスによって保証されることを示した。また,サプライヤの後悔や漸近的な限界,小売業者の後悔にも有限時間境界があることも証明する。特に、サプライヤーが戦略的でない場合(垂直統合)、コストと需要が逆らって発生し、需要が検閲された場合、小売店の後悔(または社会福祉)に最適な有限時間後悔の限界を証明します。

関連論文リスト

Optimal Nonlinear Online Learning under Sequential Price Competition via s-Concavity [24.586053819490985]
われわれは、複数の売り手の間での価格競争をT$の期間で検討している。売り手は価格を同時に提供し、それぞれの需要を競合相手に見つからないように監視する。すべての売り手が当社の政策を採用すると、その価格がナッシュ均衡価格に対して$O(T-1/7)のレートで収束し、もし売り手が十分に情報を得たらリーチできることが示される。
論文参考訳（メタデータ） (2025-03-20T22:51:03Z)
How Can Incentives and Cut Layer Selection Influence Data Contribution in Split Federated Learning? [49.16923922018379]
スプリット・フェデレーション・ラーニング(SFL)は、フェデレーションとスプリット・ラーニングの利点を組み合わせることで、有望なアプローチとして登場した。階層的意思決定手法を用いて,単一リーダマルチフォロワStackelbergゲームとして定式化された問題をモデル化する。以上の結果から,Stackelberg平衡解はクライアントとSFLモデル所有者の両方の実用性を最大化することがわかった。
論文参考訳（メタデータ） (2024-12-10T06:24:08Z)
Barriers to Welfare Maximization with No-Regret Learning [68.66209476382213]
我々は、ほぼ最適の$T$-sparse CCEの計算限界を低く証明する。特に,最大傾斜角の不適応性は,時間内に非自明な間隔を達成できないことを示す。
論文参考訳（メタデータ） (2024-11-04T00:34:56Z)
A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文参考訳（メタデータ） (2024-07-08T09:55:31Z)
Online Learning for Equilibrium Pricing in Markets under Incomplete Information [5.092028049119383]
不完全な情報設定における均衡価格設定の問題を考える。我々は3つのパフォーマンス指標、すなわち不需要、コストの後悔、支払いの後悔を共同で最適化する。この拡張環境では,サブ線形後悔を伴うアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-21T00:53:37Z)
Learning to Price Supply Chain Contracts against a Learning Retailer [3.7814216736076434]
データ駆動型サプライヤが直面するサプライチェーン契約設計問題について検討する。サプライヤーも小売業者も市場の需要について不透明だ。これらすべてのケースにおいて、私たちの価格ポリシーがサブリニアな後悔の限界につながることが示されています。
論文参考訳（メタデータ） (2022-11-02T04:00:47Z)
Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games [85.78272987312343]
我々は、効率よく非結合な学習力学を確立し、各プレイヤーのトリガー後悔は、プレイの繰り返しの後に$O(log T)$として成長する。これにより、これまでよく知られていた$O(T1/4)$よりも指数関数的に改善される。
論文参考訳（メタデータ） (2022-08-20T20:48:58Z)
Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文参考訳（メタデータ） (2022-08-19T15:49:30Z)
A Simulation Environment and Reinforcement Learning Method for Waste Reduction [50.545552995521774]
本稿では, 流通の観点から, 食料品店の在庫を消耗品で補充する際の問題点を考察する。目的は、ごみを最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。我々は, エージェントの行動に合わせた行動を示す新しい強化学習タスクとして, 在庫再備の枠組みを定めている。
論文参考訳（メタデータ） (2022-05-30T22:48:57Z)
Online Learning with Knapsacks: the Best of Both Worlds [54.28273783164608]
オンライン学習の課題として,意思決定者が,リソース制約の有限セットに違反することなく,期待する報酬を最大化したい,という課題を提起する。当社のフレームワークは,意思決定者がそのエビデンスを柔軟かつコスト論的に扱えるようにします。
論文参考訳（メタデータ） (2022-02-28T12:10:48Z)
Exploration-Exploitation in Multi-Agent Competition: Convergence with Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。 Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文参考訳（メタデータ） (2021-06-24T11:43:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。