論文の概要: A Tight Regret Analysis of Non-Parametric Repeated Contextual Brokerage
- arxiv url: http://arxiv.org/abs/2503.02646v2
- Date: Mon, 10 Mar 2025 07:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:43:01.395264
- Title: A Tight Regret Analysis of Non-Parametric Repeated Contextual Brokerage
- Title(参考訳): 非パラメトリック反復文脈ブロケージのタイトレグレト解析
- Authors: François Bachoc, Tommaso Cesari, Roberto Colomboni,
- Abstract要約: 本稿では, 繰り返しブローカー問題の文脈バージョンについて検討する。
各インタラクションにおいて、アイテムのプライベートバリュエーションを持つ2人のトレーダーは、学習者の提案するブローカー価格に基づいて、いくつかのコンテキスト情報によって通知される購入または販売を求めます。
ブローカーの目標は、トレーダーの純益(トレーダーの評価額分布の完全な知識を持つ神託と比較して、後悔を最小限に抑えることでトレーダーの利益としても知られる)を最大化することである。
- 参考スコア(独自算出の注目度): 8.049531918823758
- License:
- Abstract: We study a contextual version of the repeated brokerage problem. In each interaction, two traders with private valuations for an item seek to buy or sell based on the learner's-a broker-proposed price, which is informed by some contextual information. The broker's goal is to maximize the traders' net utility-also known as the gain from trade-by minimizing regret compared to an oracle with perfect knowledge of traders' valuation distributions. We assume that traders' valuations are zero-mean perturbations of the unknown item's current market value-which can change arbitrarily from one interaction to the next-and that similar contexts will correspond to similar market prices. We analyze two feedback settings: full-feedback, where after each interaction the traders' valuations are revealed to the broker, and limited-feedback, where only transaction attempts are revealed. For both feedback types, we propose algorithms achieving tight regret bounds. We further strengthen our performance guarantees by providing a tight 1/2-approximation result showing that the oracle that knows the traders' valuation distributions achieves at least 1/2 of the gain from trade of the omniscient oracle that knows in advance the actual realized traders' valuations.
- Abstract(参考訳): 本稿では, 繰り返しブローカー問題の文脈バージョンについて検討する。
各インタラクションにおいて、アイテムのプライベートバリュエーションを持つ2人のトレーダーは、学習者の提案するブローカー価格に基づいて、いくつかのコンテキスト情報によって通知される購入または販売を求めます。
ブローカーの目標は、トレーダーの純益(トレーダーの評価額分布の完全な知識を持つ神託と比較して、後悔を最小限に抑えることによるトレーダーの利益としても知られる)を最大化することである。
我々は、トレーダーのバリュエーションが、未知の商品の現在の市場価値のゼロ平均摂動であると仮定する。
フルフィードバック(Full-feedback)、各インタラクション後にトレーダのバリュエーションがブローカに開示される、リミテッドフィードバック(Limited-feedback)、トランザクション試行のみを公開する、という2つのフィードバック設定を分析します。
両方のフィードバックタイプに対して,厳密な後悔境界を達成するアルゴリズムを提案する。
さらに、取引業者の評価額分布を知るオラクルが、実際に実現された取引業者の評価額を事前に知っているオムニエンス・オラクルの取引から得られる利益の少なくとも半分を達成していることを示す、厳密な1/2近似結果を提供することで、パフォーマンス保証をさらに強化する。
関連論文リスト
- When AI Meets Finance (StockAgent): Large Language Model-based Stock Trading in Simulated Real-world Environments [55.19252983108372]
LLMによって駆動される、StockAgentと呼ばれるマルチエージェントAIシステムを開発した。
StockAgentを使えば、ユーザーはさまざまな外部要因が投資家取引に与える影響を評価することができる。
AIエージェントに基づく既存のトレーディングシミュレーションシステムに存在するテストセットのリーク問題を回避する。
論文 参考訳(メタデータ) (2024-07-15T06:49:30Z) - Reinforcement Learning for Corporate Bond Trading: A Sell Side Perspective [0.0]
社債トレーダーは、テキスト優先の市場価格にスプレッドを追加して引用を提供する
不正な債券については、市場価格の観測が困難であり、トレーダーはしばしば利用可能なベンチマーク債の価格に頼っている。
本稿では,データ駆動方式による最適入札分散商法の推定にアプローチし,強化学習を用いて学習できることを示す。
論文 参考訳(メタデータ) (2024-06-18T18:02:35Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Fair Online Bilateral Trade [20.243000364933472]
各取引が終わった後、プラットフォームは各トレーダーが現在の価格を受け入れたかどうかのみを学習するときに、取引から公平に利益を得るための後悔の完全な特徴を提示する。
それぞれのインタラクションの後に、プラットフォームが真のトレーダーのバリュエーションを観察できることを許す。
論文 参考訳(メタデータ) (2024-05-22T18:49:11Z) - A Contextual Online Learning Theory of Brokerage [8.049531918823758]
トレーダー間のブローカーのオンライン学習問題における文脈情報の役割について検討する。
有界密度仮定が解かれると、問題は解けなくなる。
論文 参考訳(メタデータ) (2024-05-22T18:38:05Z) - Trading Volume Maximization with Online Learning [3.8059763597999012]
取引量を最大化するためにブローカーがどのように振る舞うべきかを検討する。
我々は、トレーダーのバリュエーションを未知の分布を持つi.d.プロセスとしてモデル化する。
提案した価格で販売または購入する意思が各インタラクション後に明らかにされる場合、多言語的後悔を実現するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-05-21T17:26:44Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - An Online Learning Theory of Brokerage [3.8059763597999012]
オンライン学習の観点からトレーダー間のブローカーについて検討する。
既に研究されている他の二国間貿易問題とは異なり、指定された買い手や売り手の役割が存在しない場合に焦点を当てる。
第1の場合、最適率は$sqrtT$に低下し、第2の場合、問題は解けなくなる。
論文 参考訳(メタデータ) (2023-10-18T17:01:32Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - A Dataset on Malicious Paper Bidding in Peer Review [84.68308372858755]
悪意あるレビュアーは、紙の割り当てを非倫理的に操作するために戦略的に入札した。
この問題を緩和するための方法の作成と評価への重要な障害は、悪意ある紙入札に関する公開データの欠如である。
我々は、参加者に正直に、悪意的に入札するよう指示されたモックカンファレンス活動から収集された、新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2022-06-24T20:23:33Z) - Certifying Strategyproof Auction Networks [53.37051312298459]
我々は、任意の数のアイテムと参加者でオークションを表現できるRegretNetアーキテクチャに焦点を当てる。
本稿では,ニューラルネットワーク検証文献から得られた手法を用いて,特定の評価プロファイルの下で戦略の安全性を明示的に検証する方法を提案する。
論文 参考訳(メタデータ) (2020-06-15T20:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。