論文の概要: Concave Statistical Utility Maximization Bandits via Influence-Function Gradients
- arxiv url: http://arxiv.org/abs/2604.22140v2
- Date: Tue, 28 Apr 2026 14:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.812509
- Title: Concave Statistical Utility Maximization Bandits via Influence-Function Gradients
- Title(参考訳): 影響関数勾配によるコンケーブ統計的ユーティリティ最大化帯域
- Authors: Matías Carrasco, Alejandro Cholaquidis,
- Abstract要約: 我々は,予想される報酬のみではなく,長期報酬分布の統計関数である多腕包帯について検討した。
一般の凹凸分布ユーティリティのためのフレームワークを開発し、正確な影響関数の実装とプラグインの影響関数の実装を比較した数値実験を行った。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study stochastic multi-armed bandits in which the objective is a statistical functional of the long-run reward distribution, rather than expected reward alone. Under mild continuity assumptions, we show that the infinite-horizon problem reduces to optimizing over stationary mixed policies: each weight vector \(w\) on the simplex induces a mixture law \(P^w\), and performance is measured by the concave utility \(U(w)=\mathfrak U(P^w)\). For differentiable statistical utilities, we use influence-function calculus to derive stochastic gradient estimators from bandit feedback. This leads to an entropic mirror-ascent algorithm on a truncated simplex, implemented through multiplicative-weights updates and plug-in estimates of the influence function. We establish regret bounds that separate the mirror-ascent optimization error from the bias caused by estimating the influence function. The framework is developed for general concave distributional utilities and illustrated through variance and Wasserstein objectives, with numerical experiments comparing exact and plug-in influence-function implementations.
- Abstract(参考訳): 本研究では,長期報酬分布の統計的関数である確率的マルチアームバンドについて検討した。
軽度連続性仮定の下では、無限水平問題は定常混合ポリシーの最適化に還元され、単純体上の各重みベクトル \(w\) は混合法則 \(P^w\) を誘導し、凹凸ユーティリティ \(U(w)=\mathfrak U(P^w)\ によって性能を測定する。
微分可能な統計ユーティリティに対しては、確率勾配推定器を帯域フィードバックから導出するために影響関数計算を用いる。
これは、乗算重み更新と影響関数のプラグイン推定によって実装された、トランキャットされた単純体上のエントロピックミラー・アセットアルゴリズムに繋がる。
影響関数の推定によって生じるバイアスからミラー・アセットの最適化誤差を分離する残差境界を確立する。
このフレームワークは一般の凹凸分布ユーティリティ向けに開発され、分散とワッサースタインの目的を通して説明され、正確な影響関数とプラグインの影響関数の実装を比較した数値実験を行う。
関連論文リスト
- Coarsening Bias from Variable Discretization in Causal Functionals [0.8880611506199766]
因果効果関数のクラスは連続変数の条件付き密度に対する積分を必要とする。
離散化は人口レベルの機能を変化させ、無視できない近似バイアスを引き起こす。
そこで本研究では,インバービン条件付き手法で結果の回帰を評価する簡易なバイアス低減関数を提案する。
論文 参考訳(メタデータ) (2026-02-25T16:32:04Z) - Malliavin Calculus with Weak Derivatives for Counterfactual Stochastic Optimization [16.179901221618156]
本研究では,不特定雑音勾配情報に基づく条件損失関数の対実的最適化について検討する。
拡散過程の条件損失函数は、スコロホッド積分として正確に表現され、古典的モンテカルロに匹敵する分散をもたらすことを示す。
論文 参考訳(メタデータ) (2025-09-30T21:37:54Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Optimal convex $M$-estimation via score matching [6.115859302936817]
実験的リスク最小化が回帰係数の下流推定における最適分散をもたらすデータ駆動凸損失関数を構築した。
人口レベルでは、最適凸損失の負の微分は、ノイズ分布の対数密度の微分の最も低い近似である。
論文 参考訳(メタデータ) (2024-03-25T12:23:19Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Wasserstein Distributionally Robust Estimation in High Dimensions: Performance Analysis and Optimal Hyperparameter Tuning [2.4578723416255754]
分散ロバスト最適化(DRO)は不確実性の下での見積もりの強力なフレームワークとなっている。
本稿では,DROに基づく線形回帰法を提案し,その中心的問題,すなわちロバストネス半径を最適に選択する方法を提案する。
本手法はクロスバリデーションと同じ効果を示すが,計算コストのごく一部で実現可能であることを示す。
論文 参考訳(メタデータ) (2022-06-27T13:02:59Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Online Statistical Inference for Stochastic Optimization via
Kiefer-Wolfowitz Methods [8.890430804063705]
The distribution for the Polyak-Ruppert-averaging type Kiefer-Wolfowitz (AKW) estimators。
分布結果は、統計効率と関数クエリの複雑さのトレードオフを反映している。
論文 参考訳(メタデータ) (2021-02-05T19:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。