論文の概要: An Online Learning Theory of Brokerage
- arxiv url: http://arxiv.org/abs/2310.12107v1
- Date: Wed, 18 Oct 2023 17:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:35:31.340406
- Title: An Online Learning Theory of Brokerage
- Title(参考訳): ブローカージュのオンライン学習理論
- Authors: Nata\v{s}a Boli\'c, Tommaso Cesari, Roberto Colomboni
- Abstract要約: オンライン学習の観点からトレーダー間のブローカーについて検討する。
既に研究されている他の二国間貿易問題とは異なり、指定された買い手や売り手の役割が存在しない場合に焦点を当てる。
第1の場合、最適率は$sqrtT$に低下し、第2の場合、問題は解けなくなる。
- 参考スコア(独自算出の注目度): 3.8059763597999012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate brokerage between traders from an online learning perspective.
At any round $t$, two traders arrive with their private valuations, and the
broker proposes a trading price. Unlike other bilateral trade problems already
studied in the online learning literature, we focus on the case where there are
no designated buyer and seller roles: each trader will attempt to either buy or
sell depending on the current price of the good.
We assume the agents' valuations are drawn i.i.d. from a fixed but unknown
distribution. If the distribution admits a density bounded by some constant
$M$, then, for any time horizon $T$:
$\bullet$ If the agents' valuations are revealed after each interaction, we
provide an algorithm achieving regret $M \log T$ and show this rate is optimal,
up to constant factors.
$\bullet$ If only their willingness to sell or buy at the proposed price is
revealed after each interaction, we provide an algorithm achieving regret
$\sqrt{M T}$ and show this rate is optimal, up to constant factors.
Finally, if we drop the bounded density assumption, we show that the optimal
rate degrades to $\sqrt{T}$ in the first case, and the problem becomes
unlearnable in the second.
- Abstract(参考訳): 我々は、トレーダー間のブローカーをオンライン学習の観点から調査する。
任意のラウンドで、2人のトレーダーがプライベートバリュエーションを持って到着し、ブローカーはトレーディング価格を提案する。
オンライン学習文献で既に研究されている他の二国間貿易問題とは違って、指定された買い手や売り手の役割が存在しない場合、それぞれのトレーダーは、商品の現在の価格に応じて売買を試みます。
エージェントのバリュエーションは、固定されたが未知の分布から引き出されると仮定する。
もし分布が一定の$M$で束縛された密度を持つなら、任意の時間的地平線に対して$T$:$\bullet$ エージェントのバリュエーションが各相互作用の後に明らかにされるなら、後悔する$M \log T$ を達成するアルゴリズムを提供し、この速度が定数因子まで最適であることを示す。
$\bullet$ 提案された価格で販売または購入する意思が各インタラクション後に明らかにされる場合、後悔する$\sqrt{M T}$を達成したアルゴリズムを提供し、このレートが最適であることを示す。
最後に、有界密度の仮定を下すと、最適率は第一の場合$\sqrt{T}$に縮退し、第二の場合で問題は解けなくなる。
関連論文リスト
- Online Learning in Contextual Second-Price Pay-Per-Click Auctions [47.06746975822902]
オンライン学習は、クリック単価のオークションで学習し、そこでは、各ラウンドのT$で、学習者がいくつかのコンテキストと広告を受信する。
学習者のゴールは、彼女の後悔を最小限に抑えることであり、それは彼女の総収入と託宣戦略のギャップとして定義される。
論文 参考訳(メタデータ) (2023-10-08T07:04:22Z) - A Deep Reinforcement Learning Trader without Offline Training [0.0]
我々はDouble Deep $Q$-learningをFast Learning Networksが期待する$Q$を近似したエピソード設定で使用しています。
我々は,市場状況が望ましくないと思われた場合に,取引プール内の資金の一部を貯蓄する仕組みを導入するため,エピソードの端末状態が定義される。
論文 参考訳(メタデータ) (2023-03-01T09:34:52Z) - Repeated Bilateral Trade Against a Smoothed Adversary [5.939280057673226]
我々は、アダプティブ$sigma$-smooth敵が売り手と買い手のバリュエーションを生成する二国間取引について検討する。
本研究では、異なるフィードバックモデルの下での固定価格機構に対する後悔状態の完全な特徴付けを行う。
論文 参考訳(メタデータ) (2023-02-21T16:30:10Z) - Uniswap Liquidity Provision: An Online Learning Approach [49.145538162253594]
分散取引所(DEX)は、テクノロジーを活用した新しいタイプのマーケットプレイスである。
そのようなDECの1つ、Unixwap v3は、流動性プロバイダが資金のアクティブな価格間隔を指定することで、より効率的に資金を割り当てることを可能にする。
これにより、価格間隔を選択するための最適な戦略を見出すことが問題となる。
我々は、この問題を非確率的な報酬を伴うオンライン学習問題として定式化する。
論文 参考訳(メタデータ) (2023-02-01T17:21:40Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - An $\alpha$-regret analysis of Adversarial Bilateral Trade [4.244584441909098]
我々は、売り手と買い手のバリュエーションが完全に任意であるシーケンシャルな二国間取引を調査する。
我々は、社会福祉よりも近づきにくい貿易からの利益を考えます。
論文 参考訳(メタデータ) (2022-10-13T08:57:30Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Double Auctions with Two-sided Bandit Feedback [11.334374665364214]
ダブルオークションは、複数の買い手と売り手の間の商品の分散移動を可能にする。
信頼関係に基づく入札を行い、参加者の間には「平均価格」が効率的な価格発見をもたらすことを示す。
本論文は,両面の市場において,両面から学習が必要な不確実な嗜好を持つ分散学習アルゴリズムを初めて提供するものである。
論文 参考訳(メタデータ) (2022-08-13T01:03:34Z) - A Regret Analysis of Bilateral Trade [5.031063690574698]
我々は、売り手/買い手の相互作用のラウンド上の後悔最小化フレームワークに二国間貿易問題で初めてキャストしました。
私達の主な貢献は異なったモデルのフィードバックおよび私用評価の固定価格のメカニズムのための後悔の体制の完全な特徴付けです。
論文 参考訳(メタデータ) (2021-02-16T08:53:17Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。