論文の概要: Nonparametric Contextual Online Bilateral Trade
- arxiv url: http://arxiv.org/abs/2602.12904v1
- Date: Fri, 13 Feb 2026 13:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.956001
- Title: Nonparametric Contextual Online Bilateral Trade
- Title(参考訳): 非パラメトリックなオンラインバイラテラル取引
- Authors: Emanuele Coccia, Martino Bernasconi, Andrea Celli,
- Abstract要約: 文脈的オンライン二国間貿易の問題について検討する。
学習者の目標は、両者間の貿易を促進するために価格を公表することである。
階層木構築による文脈情報を活用するアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 15.586783656868706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of contextual online bilateral trade. At each round, the learner faces a seller-buyer pair and must propose a trade price without observing their private valuations for the item being sold. The goal of the learner is to post prices to facilitate trades between the two parties. Before posting a price, the learner observes a $d$-dimensional context vector that influences the agent's valuations. Prior work in the contextual setting has focused on linear models. In this work, we tackle a general nonparametric setting in which the buyer's and seller's valuations behave according to arbitrary Lipschitz functions of the context. We design an algorithm that leverages contextual information through a hierarchical tree construction and guarantees regret $\widetilde{O}(T^{{(d-1)}/d})$. Remarkably, our algorithm operates under two stringent features of the setting: (1) one-bit feedback, where the learner only observes whether a trade occurred or not, and (2) strong budget balance, where the learner cannot subsidize or profit from the market participants. We further provide a matching lower bound in the full-feedback setting, demonstrating the tightness of our regret bound.
- Abstract(参考訳): 文脈的オンライン二国間貿易の問題について検討する。
各ラウンドでは、学習者は売り手と買い手のペアに直面し、販売される商品の個人価値を観察することなく、取引価格を提案しなければならない。
学習者の目標は、両者間の貿易を促進するために価格を公表することである。
価格を投稿する前に、学習者はエージェントのバリュエーションに影響を与える$d$次元のコンテキストベクトルを観察する。
文脈設定における以前の作業は線形モデルに重点を置いていた。
本研究では,買い手と売り手のバリュエーションがコンテキストの任意のリプシッツ関数に従って振る舞う一般の非パラメトリック設定に取り組む。
階層木構築による文脈情報を活用するアルゴリズムを設計し, 後悔すべき$\widetilde{O}(T^{{(d-1)}/d})$を保証した。
提案アルゴリズムは,(1)1ビットフィードバック,(2)取引が発生したかどうかのみを学習者が観察する,(2)市場参加者からの補助や利益が得られない,という2つの制約条件の下で動作している。
さらに、フルフィードバック設定での一致した低いバウンダリを提供し、後悔のバウンダリの厳密さを示しています。
関連論文リスト
- Contextual Online Bilateral Trade [18.8734045754182]
我々は、貿易と利益の2つの目的について研究する。
我々は、取引の利益のために$O(dlog d)$後悔するアルゴリズムを設計し、利益のために$O(dlog T + dlog d)$後悔するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2026-02-13T13:03:10Z) - A Tight Regret Analysis of Non-Parametric Repeated Contextual Brokerage [8.049531918823758]
本稿では, 繰り返しブローカー問題の文脈バージョンについて検討する。
各インタラクションにおいて、アイテムのプライベートバリュエーションを持つ2人のトレーダーは、学習者の提案するブローカー価格に基づいて、いくつかのコンテキスト情報によって通知される購入または販売を求めます。
ブローカーの目標は、トレーダーの純益(トレーダーの評価額分布の完全な知識を持つ神託と比較して、後悔を最小限に抑えることでトレーダーの利益としても知られる)を最大化することである。
論文 参考訳(メタデータ) (2025-03-03T08:42:55Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - No-Regret Learning in Bilateral Trade via Global Budget Balance [29.514323697659613]
我々は、様々なフィードバックモデルの下で、敵対的二元貿易のための最初のノンレグレットアルゴリズムを提供する。
フルフィードバックモデルでは、学習者は後見の最高の固定価格に対して$tilde O(sqrtT)$ regretを保証できる。
また,1ビットフィードバックを伴って,$tilde O(T3/4)$ regret upper boundを保証した学習アルゴリズムも提供する。
論文 参考訳(メタデータ) (2023-10-18T22:34:32Z) - Language of Bargaining [60.218128617765046]
我々は、言語の使用が二国間交渉をどのように形成するかを研究するための新しいデータセットを構築した。
我々の研究は、交渉の結果を予測する言語信号も明らかにしている。
論文 参考訳(メタデータ) (2023-06-12T13:52:01Z) - Repeated Bilateral Trade Against a Smoothed Adversary [5.939280057673226]
我々は、アダプティブ$sigma$-smooth敵が売り手と買い手のバリュエーションを生成する二国間取引について検討する。
本研究では、異なるフィードバックモデルの下での固定価格機構に対する後悔状態の完全な特徴付けを行う。
論文 参考訳(メタデータ) (2023-02-21T16:30:10Z) - A Reinforcement Learning Approach in Multi-Phase Second-Price Auction
Design [158.0041488194202]
多相第2価格オークションにおけるリザーブ価格の最適化について検討する。
売り手の視点からは、潜在的に非現実的な入札者の存在下で、環境を効率的に探索する必要がある。
第三に、売り手のステップごとの収益は未知であり、非線形であり、環境から直接観察することさえできない。
論文 参考訳(メタデータ) (2022-10-19T03:49:05Z) - Optimal No-regret Learning in Repeated First-price Auctions [38.908235632001116]
オンライン学習を反復した初価オークションで研究する。
我々は,ほぼ最適の$widetildeO(sqrtT)$ regret boundを達成するための最初の学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-03-22T03:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。