論文の概要: A Parametric Contextual Online Learning Theory of Brokerage
- arxiv url: http://arxiv.org/abs/2407.01566v2
- Date: Thu, 14 Aug 2025 17:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:47.965548
- Title: A Parametric Contextual Online Learning Theory of Brokerage
- Title(参考訳): ブロケラージュのパラメトリックオンライン学習理論
- Authors: François Bachoc, Tommaso Cesari, Roberto Colomboni,
- Abstract要約: トレーダー間のブローカーのオンライン学習問題における文脈情報の役割について検討する。
このシーケンシャルな問題では、各ステップで、2人のトレーダーが取引したい資産に関する秘密のバリュエーションを持って到着します。
学習者(ブローカー)は、資産と市場条件に関するコンテキストデータに基づくトレーディング(またはブローカー)価格を提案する。
そして、トレーダーは、彼らの評価額がブローカー価格よりも高いか低いかに基づいて、購入または販売する意思を明らかにします。
- 参考スコア(独自算出の注目度): 8.049531918823758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the role of contextual information in the online learning problem of brokerage between traders. In this sequential problem, at each time step, two traders arrive with secret valuations about an asset they wish to trade. The learner (a broker) suggests a trading (or brokerage) price based on contextual data about the asset and the market conditions. Then, the traders reveal their willingness to buy or sell based on whether their valuations are higher or lower than the brokerage price. A trade occurs if one of the two traders decides to buy and the other to sell, i.e., if the broker's proposed price falls between the smallest and the largest of their two valuations. We design algorithms for this problem and prove optimal theoretical regret guarantees under various standard assumptions.
- Abstract(参考訳): トレーダー間のブローカーのオンライン学習問題における文脈情報の役割について検討する。
このシーケンシャルな問題では、各ステップで、2人のトレーダーが取引したい資産に関する秘密のバリュエーションを持って到着します。
学習者(ブローカー)は、資産と市場条件に関するコンテキストデータに基づくトレーディング(またはブローカー)価格を提案する。
そして、トレーダーは、彼らの評価額がブローカー価格よりも高いか低いかに基づいて、購入または販売する意思を明らかにします。
2人のトレーダーの1人が買い、もう1人が売りを決めた場合、すなわち、ブローカーの提案した価格が2つのバリュエーションの最小値と最大値の間にある場合、取引が発生する。
この問題に対するアルゴリズムを設計し、様々な標準仮定の下で最適な理論的後悔の保証を証明した。
関連論文リスト
- Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。
我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。
政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文 参考訳(メタデータ) (2025-06-07T17:37:10Z) - A Tight Regret Analysis of Non-Parametric Repeated Contextual Brokerage [8.049531918823758]
本稿では, 繰り返しブローカー問題の文脈バージョンについて検討する。
各インタラクションにおいて、アイテムのプライベートバリュエーションを持つ2人のトレーダーは、学習者の提案するブローカー価格に基づいて、いくつかのコンテキスト情報によって通知される購入または販売を求めます。
ブローカーの目標は、トレーダーの純益(トレーダーの評価額分布の完全な知識を持つ神託と比較して、後悔を最小限に抑えることでトレーダーの利益としても知られる)を最大化することである。
論文 参考訳(メタデータ) (2025-03-03T08:42:55Z) - Market Making without Regret [15.588799679661637]
市場メーカが入札価格のB_t$と要求価格のA_t$を、入ってくるトレーダーに提示する、シーケンシャルな意思決定設定について検討する。
トレーダーのバリュエーションが入札価格よりも低い場合、または要求価格より高い場合は、取引(販売または購入)が発生する。
我々は、入札とペアの最良の選択に関して、メーカの後悔を特徴づける。
論文 参考訳(メタデータ) (2024-11-21T10:13:55Z) - When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z) - Fair Online Bilateral Trade [20.243000364933472]
各取引が終わった後、プラットフォームは各トレーダーが現在の価格を受け入れたかどうかのみを学習するときに、取引から公平に利益を得るための後悔の完全な特徴を提示する。
それぞれのインタラクションの後に、プラットフォームが真のトレーダーのバリュエーションを観察できることを許す。
論文 参考訳(メタデータ) (2024-05-22T18:49:11Z) - Trading Volume Maximization with Online Learning [3.8059763597999012]
取引量を最大化するためにブローカーがどのように振る舞うべきかを検討する。
我々は、トレーダーのバリュエーションを未知の分布を持つi.d.プロセスとしてモデル化する。
提案した価格で販売または購入する意思が各インタラクション後に明らかにされる場合、多言語的後悔を実現するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-05-21T17:26:44Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - No-Regret Learning in Bilateral Trade via Global Budget Balance [29.514323697659613]
我々は、様々なフィードバックモデルの下で、敵対的二元貿易のための最初のノンレグレットアルゴリズムを提供する。
フルフィードバックモデルでは、学習者は後見の最高の固定価格に対して$tilde O(sqrtT)$ regretを保証できる。
また,1ビットフィードバックを伴って,$tilde O(T3/4)$ regret upper boundを保証した学習アルゴリズムも提供する。
論文 参考訳(メタデータ) (2023-10-18T22:34:32Z) - An Online Learning Theory of Brokerage [3.8059763597999012]
オンライン学習の観点からトレーダー間のブローカーについて検討する。
既に研究されている他の二国間貿易問題とは異なり、指定された買い手や売り手の役割が存在しない場合に焦点を当てる。
第1の場合、最適率は$sqrtT$に低下し、第2の場合、問題は解けなくなる。
論文 参考訳(メタデータ) (2023-10-18T17:01:32Z) - Online Learning in Contextual Second-Price Pay-Per-Click Auctions [47.06746975822902]
オンライン学習は、クリック単価のオークションで学習し、そこでは、各ラウンドのT$で、学習者がいくつかのコンテキストと広告を受信する。
学習者のゴールは、彼女の後悔を最小限に抑えることであり、それは彼女の総収入と託宣戦略のギャップとして定義される。
論文 参考訳(メタデータ) (2023-10-08T07:04:22Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Taking Over the Stock Market: Adversarial Perturbations Against
Algorithmic Traders [47.32228513808444]
本稿では,敵対的学習手法を用いて,攻撃者がアルゴリズム取引システムに影響を与える現実的なシナリオを提案する。
入力ストリームに追加されると、我々の摂動は将来目に見えないデータポイントのトレーディングアルゴリズムを騙すことができることを示す。
論文 参考訳(メタデータ) (2020-10-19T06:28:05Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。