論文の概要: A Contextual Online Learning Theory of Brokerage
- arxiv url: http://arxiv.org/abs/2407.01566v1
- Date: Wed, 22 May 2024 18:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 22:28:39.806953
- Title: A Contextual Online Learning Theory of Brokerage
- Title(参考訳): ブロッカージュの文脈オンライン学習理論
- Authors: François Bachoc, Tommaso Cesari, Roberto Colomboni,
- Abstract要約: トレーダー間のブローカーのオンライン学習問題における文脈情報の役割について検討する。
有界密度仮定が解かれると、問題は解けなくなる。
- 参考スコア(独自算出の注目度): 8.049531918823758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the role of contextual information in the online learning problem of brokerage between traders. At each round, two traders arrive with secret valuations about an asset they wish to trade. The broker suggests a trading price based on contextual data about the asset. Then, the traders decide to buy or sell depending on whether their valuations are higher or lower than the brokerage price. We assume the market value of traded assets is an unknown linear function of a $d$-dimensional vector representing the contextual information available to the broker. Additionally, we model traders' valuations as independent bounded zero-mean perturbations of the asset's market value, allowing for potentially different unknown distributions across traders and time steps. Consistently with the existing online learning literature, we evaluate the performance of a learning algorithm with the regret with respect to the gain from trade. If the noise distributions admit densities bounded by some constant $L$, then, for any time horizon $T$: - If the agents' valuations are revealed after each interaction, we provide an algorithm achieving $O ( L d \ln T )$ regret, and show a corresponding matching lower bound of $\Omega( Ld \ln T )$. - If only their willingness to sell or buy at the proposed price is revealed after each interaction, we provide an algorithm achieving $O(\sqrt{LdT \ln T })$ regret, and show that this rate is optimal (up to logarithmic factors), via a lower bound of $\Omega(\sqrt{LdT})$. To complete the picture, we show that if the bounded density assumption is lifted, then the problem becomes unlearnable, even with full feedback.
- Abstract(参考訳): トレーダー間のブローカーのオンライン学習問題における文脈情報の役割について検討する。
それぞれのラウンドで、2人のトレーダーが、取引したい資産に関する秘密のバリュエーションを持って到着します。
ブローカーは、資産に関するコンテキストデータに基づくトレーディング価格を提案する。
そして、トレーダは、ブローカの価格よりも彼らのバリュエーションが高いか低いかによって、売買を決断する。
取引された資産の市場価値は、ブローカーが利用可能なコンテキスト情報を表す$d$次元ベクトルの未知の線形関数であると仮定する。
さらに、トレーダのバリュエーションを、トレーダ間の潜在的に異なる未知の分布と時間ステップを可能にする、資産の市場価値の独立した有界ゼロ平均摂動としてモデル化する。
既存のオンライン学習文献とは対照的に,貿易の利益に対する後悔と共に,学習アルゴリズムの性能を評価する。
ノイズ分布が一定の$L$で束縛された密度を許容するなら、任意の時間的地平線に対して$T$: - エージェントのバリュエーションが各相互作用の後に明らかにされるなら、$O ( L d \ln T )$ regret を達成するアルゴリズムを提供し、それに対応する$\Omega(Ld \ln T )$ の下位境界を示す。
- 提案された価格で販売または購入する意思が各インタラクション後にのみ明らかにされる場合、アルゴリズムが$O(\sqrt{LdT \ln T })$ regretを達成し、このレートが$Omega(\sqrt{LdT})$の低いバウンダリで最適であることを示す(対数因子まで)。
この結果から, 有界密度仮定が解ければ, 完全なフィードバックを伴っても解けない問題となることを示した。
関連論文リスト
- Market Making without Regret [15.588799679661637]
市場メーカが入札価格のB_t$と要求価格のA_t$を、入ってくるトレーダーに提示する、シーケンシャルな意思決定設定について検討する。
トレーダーのバリュエーションが入札価格よりも低い場合、または要求価格より高い場合は、取引(販売または購入)が発生する。
我々は、入札とペアの最良の選択に関して、メーカの後悔を特徴づける。
論文 参考訳(メタデータ) (2024-11-21T10:13:55Z) - When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z) - Fair Online Bilateral Trade [20.243000364933472]
各取引が終わった後、プラットフォームは各トレーダーが現在の価格を受け入れたかどうかのみを学習するときに、取引から公平に利益を得るための後悔の完全な特徴を提示する。
それぞれのインタラクションの後に、プラットフォームが真のトレーダーのバリュエーションを観察できることを許す。
論文 参考訳(メタデータ) (2024-05-22T18:49:11Z) - Trading Volume Maximization with Online Learning [3.8059763597999012]
取引量を最大化するためにブローカーがどのように振る舞うべきかを検討する。
我々は、トレーダーのバリュエーションを未知の分布を持つi.d.プロセスとしてモデル化する。
提案した価格で販売または購入する意思が各インタラクション後に明らかにされる場合、多言語的後悔を実現するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-05-21T17:26:44Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - No-Regret Learning in Bilateral Trade via Global Budget Balance [29.514323697659613]
我々は、様々なフィードバックモデルの下で、敵対的二元貿易のための最初のノンレグレットアルゴリズムを提供する。
フルフィードバックモデルでは、学習者は後見の最高の固定価格に対して$tilde O(sqrtT)$ regretを保証できる。
また,1ビットフィードバックを伴って,$tilde O(T3/4)$ regret upper boundを保証した学習アルゴリズムも提供する。
論文 参考訳(メタデータ) (2023-10-18T22:34:32Z) - An Online Learning Theory of Brokerage [3.8059763597999012]
オンライン学習の観点からトレーダー間のブローカーについて検討する。
既に研究されている他の二国間貿易問題とは異なり、指定された買い手や売り手の役割が存在しない場合に焦点を当てる。
第1の場合、最適率は$sqrtT$に低下し、第2の場合、問題は解けなくなる。
論文 参考訳(メタデータ) (2023-10-18T17:01:32Z) - Online Learning in Contextual Second-Price Pay-Per-Click Auctions [47.06746975822902]
オンライン学習は、クリック単価のオークションで学習し、そこでは、各ラウンドのT$で、学習者がいくつかのコンテキストと広告を受信する。
学習者のゴールは、彼女の後悔を最小限に抑えることであり、それは彼女の総収入と託宣戦略のギャップとして定義される。
論文 参考訳(メタデータ) (2023-10-08T07:04:22Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Taking Over the Stock Market: Adversarial Perturbations Against
Algorithmic Traders [47.32228513808444]
本稿では,敵対的学習手法を用いて,攻撃者がアルゴリズム取引システムに影響を与える現実的なシナリオを提案する。
入力ストリームに追加されると、我々の摂動は将来目に見えないデータポイントのトレーディングアルゴリズムを騙すことができることを示す。
論文 参考訳(メタデータ) (2020-10-19T06:28:05Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。