論文の概要: Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance
- arxiv url: http://arxiv.org/abs/2603.06851v1
- Date: Fri, 06 Mar 2026 20:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.203284
- Title: Bilateral Trade Under Heavy-Tailed Valuations: Minimax Regret with Infinite Variance
- Title(参考訳): 厳格なバリュエーションの下でのバイラテラル貿易:無限の変動を伴う最小限のレグレット
- Authors: Hangyi Zhao,
- Abstract要約: 任意の値に対する期待された後悔は、有界密度だけで$mathbbE[g(m,V,W)] le L|m-|2$を満たすことを示す。
雑音が$p in (1,2)$に対してp$-第1モーメントしか持たず、市場価値関数が$$-Hlderである場合、エポックアルゴリズムが後悔$widetildeO(T1-2(p-1)/(p + d(p-1)))$を達成することを証明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study contextual bilateral trade under full feedback when trader valuations have bounded density but infinite variance. We first extend the self-bounding property of Bachoc et al. (ICML 2025) from bounded to real-valued valuations, showing that the expected regret of any price $π$ satisfies $\mathbb{E}[g(m,V,W) - g(π,V,W)] \le L|m-π|^2$ under bounded density alone. Combining this with truncated-mean estimation, we prove that an epoch-based algorithm achieves regret $\widetilde{O}(T^{1-2β(p-1)/(βp + d(p-1))})$ when the noise has finite $p$-th moment for $p \in (1,2)$ and the market value function is $β$-Hölder, and we establish a matching $Ω(\cdot)$ lower bound via Assouad's method with a smoothed moment-matching construction. Our results characterize the exact minimax rate for this problem, interpolating between the classical nonparametric rate at $p=2$ and the trivial linear rate as $p \to 1^+$.
- Abstract(参考訳): トレーダーのバリュエーションが境界密度を持つが、無限のばらつきがある場合、完全なフィードバックの下で文脈的二元的貿易について検討する。
Bachoc et al (ICML 2025) の自己有界性は有界値から実値値に拡張され、任意の価格$π$ が期待される後悔は、有界密度だけで$\mathbb{E}[g(m,V,W) - g(π,V,W)] \le L|m-π|^2$ を満たすことを示す。
これをtruncated-mean 推定と組み合わせることで、エポックアルゴリズムが後悔の$\widetilde{O}(T^{1-2β(p-1)/(βp + d(p-1))})$が有限$p$-th moment for $p \in (1,2)$であり、市場価値関数が$β$-Hölder であることを証明する。
この結果から,古典的非パラメトリックレートを$p=2$で補間し,自明な線形レートを$p \to 1^+$で補間した。
関連論文リスト
- Near-Optimal Regret for KL-Regularized Multi-Armed Bandits [54.77408659142336]
KL正規化目標に対するオンライン学習の統計的効率について検討する。
我々は、MABsのKL正規化後悔が$$非依存であることを示し、$tilde(sqrtKT)$とスケールする。
論文 参考訳(メタデータ) (2026-03-02T18:17:33Z) - Tight Regret Bounds for Fixed-Price Bilateral Trade [9.12082890580808]
両貿易における固定価格機構について, 後悔最小化レンズを用いて検討した。
独立値の場合、$widetildeTheta(T2/3)$ tight bound for $textsfGlobal Budget Balance$ fixed-price mechanism with two-bit/one-bit feedback。
相関値/逆値の場合、$Omega(T3/4)$ lower bound for $textsfGlobal Budget Balance$ fixed-price mechanism with two-bit/one-bit feedback。
論文 参考訳(メタデータ) (2025-04-06T03:56:42Z) - p-Mean Regret for Stochastic Bandits [52.828710025519996]
単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。
我々の枠組みは、特別な場合として、平均的な累積的後悔とナッシュ後悔の両方を包含する。
論文 参考訳(メタデータ) (2024-12-14T08:38:26Z) - Tangential Randomization in Linear Bandits (TRAiL): Guaranteed Inference and Regret Bounds [1.03590082373586]
本稿では,線形帯域探索アルゴリズムTRAiLの提案と解析を行う。
TraiLは、設計(回帰器)行列の最小固有値によって測定された推論品質の$Omega(sqrtT)$成長を保証する。
我々は,期待された後悔に対して,任意のアルゴリズムに対して$Omega(sqrtT)$ minimax小境界を特徴付ける。
論文 参考訳(メタデータ) (2024-11-19T01:08:13Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Policy Optimization Using Semiparametric Models for Dynamic Pricing [1.3428344011390776]
商品の市場価値が観測された特徴と市場ノイズに線形である状況的動的価格問題について検討する。
一般化線形モデルからの半パラメトリック推定と未知のリンクとオンライン意思決定を組み合わせた動的統計的学習と意思決定ポリシーを提案する。
論文 参考訳(メタデータ) (2021-09-13T23:50:01Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov
Decision Processes [91.38793800392108]
本稿では,マルコフ決定過程(MDP)の遷移確率核が線形混合モデルである線形関数近似による強化学習について検討する。
上記の線形混合 MDP に対して$textUCRL-VTR+$ という線形関数近似を用いた計算効率の良い新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を持つRLのための計算効率が良く、ほぼ最小のアルゴリズムである。
論文 参考訳(メタデータ) (2020-12-15T18:56:46Z) - Nearly Optimal Regret for Stochastic Linear Bandits with Heavy-Tailed
Payoffs [35.988644745703645]
我々は、リニアバンディットをヘビーテールのペイオフで分析し、そこではペイオフは1+epsilon$のモーメントしか持たない。
本稿では,$widetildeO(dfrac12Tfrac11+epsilon)$のサブ線形後悔境界を満足する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-28T13:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。