論文の概要: Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling
- arxiv url: http://arxiv.org/abs/2205.06024v1
- Date: Thu, 12 May 2022 11:15:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:03:20.551154
- Title: Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling
- Title(参考訳): 準モンテカルロサンプリングによるPlanet-Luceモデルの低分散推定
- Authors: Alexander Buchholz, Jan Malte Lichtenberg, Giuseppe Di Benedetto,
Yannik Stein, Vito Bellini, Matteo Ruffini
- Abstract要約: PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
- 参考スコア(独自算出の注目度): 58.14878401145309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Plackett-Luce (PL) model is ubiquitous in learning-to-rank (LTR) because
it provides a useful and intuitive probabilistic model for sampling ranked
lists. Counterfactual offline evaluation and optimization of ranking metrics
are pivotal for using LTR methods in production. When adopting the PL model as
a ranking policy, both tasks require the computation of expectations with
respect to the model. These are usually approximated via Monte-Carlo (MC)
sampling, since the combinatorial scaling in the number of items to be ranked
makes their analytical computation intractable. Despite recent advances in
improving the computational efficiency of the sampling process via the Gumbel
top-k trick, the MC estimates can suffer from high variance. We develop a novel
approach to producing more sample-efficient estimators of expectations in the
PL model by combining the Gumbel top-k trick with quasi-Monte Carlo (QMC)
sampling, a well-established technique for variance reduction. We illustrate
our findings both theoretically and empirically using real-world recommendation
data from Amazon Music and the Yahoo learning-to-rank challenge.
- Abstract(参考訳): Plackett-Luce(PL)モデルは、ランクリストのサンプリングに有用で直感的な確率モデルを提供するため、LTR(Learning-to-rank)においてユビキタスである。
評価基準のオフライン評価と最適化は実運用でLTR手法を使用する上で重要である。
PLモデルをランキングポリシーとして採用する場合、どちらのタスクもモデルに対する期待の計算を必要とする。
これらは通常モンテカルロ (mc) サンプリングによって近似されるが、なぜならランク付けされるアイテムの数の組合せスケーリングは解析計算を難解にするからである。
近年, Gumbel Top-k トリックによるサンプリングプロセスの計算効率の向上が進んでいるが, MC推定値のばらつきは大きい。
我々は,Gumbelトップkトリックと準モンテカルロサンプリング(QMC)を組み合わせることで,PLモデルにおけるより標本効率の高い予測値の予測値を生成する新しい手法を開発した。
実世界のamazon musicのレコメンデーションデータとyahoo learning-to-rankチャレンジを用いて,理論上,経験的に両立する。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Fusion of Gaussian Processes Predictions with Monte Carlo Sampling [61.31380086717422]
科学と工学において、私たちはしばしば興味のある変数の正確な予測のために設計されたモデルで作業します。
これらのモデルが現実の近似であることを認識し、複数のモデルを同じデータに適用し、結果を統合することが望ましい。
論文 参考訳(メタデータ) (2024-03-03T04:21:21Z) - Nearest Neighbour Score Estimators for Diffusion Generative Models [16.189734871742743]
トレーニングセットから複数のサンプルを抽出し,推定値の分散を劇的に低減する新しい近傍スコア関数推定器を提案する。
拡散モデルでは,確率フローODE統合のための学習ネットワークを推定器で置き換えることができ,将来的な研究の新たな道が開かれる。
論文 参考訳(メタデータ) (2024-02-12T19:27:30Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Approximation of group explainers with coalition structure using Monte Carlo sampling on the product space of coalitions and features [0.11184789007828977]
我々は、与えられたMLモデルと予測ベクトルに基づく限界ゲームに対して、幅広い種類の線形ゲーム値と連立値に焦点を当てる。
我々はモンテカルロサンプリングアルゴリズムを設計し、背景データセットのサイズに線形に依存する複雑さを減らし、それらを推定する。
論文 参考訳(メタデータ) (2023-03-17T19:17:06Z) - Efficient Propagation of Uncertainty via Reordering Monte Carlo Samples [0.7087237546722617]
不確実性伝播は、入力変数の不確実性に基づいてモデル出力の不確実性を決定する技術である。
本研究は,全ての試料が平均的に有用であるにもかかわらず,他の試料よりも有用であるとする仮説を考察する。
本稿では、MCサンプルを適応的に並べ替える手法を導入し、UPプロセスの計算コストの削減をもたらす方法を示す。
論文 参考訳(メタデータ) (2023-02-09T21:28:15Z) - Principled Reinforcement Learning with Human Feedback from Pairwise or
$K$-wise Comparisons [79.98542868281473]
RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。
学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。
論文 参考訳(メタデータ) (2023-01-26T18:07:21Z) - Leverage Score Sampling for Complete Mode Coverage in Generative
Adversarial Networks [11.595070613477548]
生成モデルは、経験的データ分布の頻度が低い、表現不足のモードを見落とすことができる。
リッジレバレッジスコアに基づくサンプリング手順を提案し、標準手法と比較してモードカバレッジを大幅に向上させます。
論文 参考訳(メタデータ) (2021-04-06T09:00:38Z) - Efficient Debiased Evidence Estimation by Multilevel Monte Carlo
Sampling [0.0]
ベイズ推論に基づくマルチレベルモンテカルロ法(MLMC)の最適化手法を提案する。
計算結果から,従来の推定値と比較すると,かなりの計算量の削減が確認できた。
論文 参考訳(メタデータ) (2020-01-14T09:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。