論文の概要: Learning Parametric Distributions from Samples and Preferences
- arxiv url: http://arxiv.org/abs/2505.23557v1
- Date: Thu, 29 May 2025 15:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.944794
- Title: Learning Parametric Distributions from Samples and Preferences
- Title(参考訳): サンプルからパラメトリック分布を学習する
- Authors: Marc Jourdan, Gizem Yüce, Nicolas Flammarion,
- Abstract要約: 選好に基づくM推定器は、サンプルのみのM推定器よりも分散性が高いことを示す。
我々は,$mathcalO (1/n)$ -- $Theta (1/sqrtn)$よりも大幅に改善された$mathcalO (1/n)$ -- の推定誤差スケーリングを実現する推定器を提案する。
- 参考スコア(独自算出の注目度): 19.879505582147807
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in language modeling have underscored the role of preference feedback in enhancing model performance. This paper investigates the conditions under which preference feedback improves parameter estimation in classes of continuous parametric distributions. In our framework, the learner observes pairs of samples from an unknown distribution along with their relative preferences depending on the same unknown parameter. We show that preference-based M-estimators achieve a better asymptotic variance than sample-only M-estimators, further improved by deterministic preferences. Leveraging the hard constraints revealed by deterministic preferences, we propose an estimator achieving an estimation error scaling of $\mathcal{O}(1/n)$ -- a significant improvement over the $\Theta(1/\sqrt{n})$ rate attainable with samples alone. Next, we establish a lower bound that matches this accelerated rate; up to dimension and problem-dependent constants. While the assumptions underpinning our analysis are restrictive, they are satisfied by notable cases such as Gaussian or Laplace distributions for preferences based on the log-probability reward.
- Abstract(参考訳): 言語モデリングの最近の進歩は、モデル性能の向上における嗜好フィードバックの役割を強調している。
本稿では,連続パラメトリック分布のクラスにおいて,嗜好フィードバックがパラメータ推定を改善する条件について検討する。
本フレームワークでは,未知の分布からサンプルのペアを,同じ未知のパラメータに依存する相対的な選好とともに観測する。
選好に基づくM-推定器は、サンプルのみのM-推定器よりも漸近的な分散を実現し、決定論的選好によりさらに改善されたことを示す。
決定論的選好によって明らかにされる厳しい制約を利用して、推定誤差スケーリングを$\mathcal{O}(1/n)$ -- $\Theta(1/\sqrt{n})$よりも大幅に改善する推定器を提案する。
次に、この加速速度、次元と問題依存定数に一致する低い境界を確立する。
我々の分析の根底にある仮定は制限的であるが、ログ確率の報酬に基づいて好みのガウス分布やラプラス分布のような顕著な事例に満足している。
関連論文リスト
- Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Nearest Neighbor Sampling for Covariate Shift Adaptation [7.940293148084844]
重みを推定しない新しい共変量シフト適応法を提案する。
基本的な考え方は、ソースデータセットの$k$-nearestの隣人によってラベル付けされたラベル付けされていないターゲットデータを直接扱うことだ。
実験の結果, 走行時間を大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-12-15T17:28:09Z) - The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models [56.31310344616837]
トンプソンサンプリング(TS)は、様々な報酬モデルにまたがる理論的な保証によって支持される卓越した経験的性能で知られている。
本研究では,理論的理解の欠如のある新しいモデルを扱う際に,非形式的事前選択がTSの性能に与える影響について考察する。
論文 参考訳(メタデータ) (2023-02-28T08:42:42Z) - Bayesian Hierarchical Models for Counterfactual Estimation [12.159830463756341]
本稿では,多種多様なカウンターファクトの集合を推定する確率的パラダイムを提案する。
摂動を事前分布関数によるランダム変数として扱う。
収束特性の優れた勾配ベースサンプリング器は、後方サンプルを効率的に計算する。
論文 参考訳(メタデータ) (2023-01-21T00:21:11Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Reliable Categorical Variational Inference with Mixture of Discrete
Normalizing Flows [10.406659081400354]
変分近似は、サンプリングによって推定される予測の勾配に基づく最適化に基づいている。
カテゴリー分布のGumbel-Softmaxのような連続緩和は勾配に基づく最適化を可能にするが、離散的な観測のために有効な確率質量を定義しない。
実際には、緩和の量を選択することは困難であり、望ましいものと一致しない目的を最適化する必要がある。
論文 参考訳(メタデータ) (2020-06-28T10:39:39Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。