論文の概要: Are you using test log-likelihood correctly?
- arxiv url: http://arxiv.org/abs/2212.00219v3
- Date: Sun, 5 Nov 2023 13:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:30:48.422315
- Title: Are you using test log-likelihood correctly?
- Title(参考訳): テストログライクティフィケーションを正しく使用していますか?
- Authors: Sameer K. Deshpande and Soumya Ghosh and Tin D. Nguyen and Tamara
Broderick
- Abstract要約: テストログ類似度に基づく比較は、他の目的による比較と矛盾する可能性があることを示す。
具体的には, (i) より高いテストログ類似度が得られるベイズ近似アルゴリズムは, より正確な後部近似をもたらさないことを示す。
- 参考スコア(独自算出の注目度): 19.001705361991327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test log-likelihood is commonly used to compare different models of the same
data or different approximate inference algorithms for fitting the same
probabilistic model. We present simple examples demonstrating how comparisons
based on test log-likelihood can contradict comparisons according to other
objectives. Specifically, our examples show that (i) approximate Bayesian
inference algorithms that attain higher test log-likelihoods need not also
yield more accurate posterior approximations and (ii) conclusions about
forecast accuracy based on test log-likelihood comparisons may not agree with
conclusions based on root mean squared error.
- Abstract(参考訳): テストログは、同じデータの異なるモデルや、同じ確率モデルに適合するための異なる近似推論アルゴリズムを比較するために一般的に使用される。
本稿では,テストログ類似度に基づく比較が,他の目的による比較と矛盾することを示す単純な例を示す。
特に我々の例では
(i)より高い試験対数となるベイズ近似アルゴリズムは、より正確な後部近似をもたらさなくてもよい。
(ii)試験ログ類似比較に基づく予測精度に関する結論は,根平均二乗誤差に基づく結論と一致しない可能性がある。
関連論文リスト
- Statistical inference for pairwise comparison models [5.487882744996216]
本稿では、ペアワイズ比較モデルの幅広いクラスにおいて、最大極大に対する準最適正規性を確立する。
鍵となる考え方は、フィッシャー情報行列を重み付きグラフラプラシアンとして同定することである。
論文 参考訳(メタデータ) (2024-01-16T16:14:09Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Ranking from Pairwise Comparisons in General Graphs and Graphs with
Locality [3.1219977244201056]
本稿では,古典的Bradley-Terry-Luceモデル(BTL)のペア比較によるランキング問題について検討する。
十分に多くのサンプルを用いて,Cram'er-Rao の下界と一致するエントリワイズ推定誤差が得られることを示す。
我々は、最も広いサンプルを持つ体制においても、同様の保証を確実に達成できる分割対コンカマーのアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2023-04-13T21:14:30Z) - ContraSim -- A Similarity Measure Based on Contrastive Learning [28.949004915740776]
コントラスト学習に基づく新しい類似度尺度であるContraSimを開発した。
ContraSimは、類似した例と異なる例の両方を用いてパラメータ化された尺度を学習する。
いずれの場合も、ContraSimは以前の類似度測定よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2023-03-29T19:43:26Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Model Comparison in Approximate Bayesian Computation [0.456877715768796]
自然科学における一般的な問題は、観測されたデータに照らして競合するモデルの比較である。
この枠組みは、実際に使用されるほとんどのモデルにとって難解な確率関数の計算に依存している。
ABCにおけるベイズモデルの比較を行うための新しい効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-15T10:24:16Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Density of States Estimation for Out-of-Distribution Detection [69.90130863160384]
DoSEは状態推定器の密度である。
我々は、他の教師なしOOD検出器に対するDoSEの最先端性能を実証する。
論文 参考訳(メタデータ) (2020-06-16T16:06:25Z) - Preference Modeling with Context-Dependent Salient Features [12.403492796441434]
本稿では,各項目の特徴について,ノイズの多いペアワイド比較から,項目集合のランキングを推定する問題を考察する。
私たちのキーとなる観察は、他の項目から分離して比較した2つの項目は、機能の健全なサブセットのみに基づいて比較できるということです。
論文 参考訳(メタデータ) (2020-02-22T04:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。