論文の概要: Perplexity Cannot Always Tell Right from Wrong
- arxiv url: http://arxiv.org/abs/2601.22950v1
- Date: Fri, 30 Jan 2026 13:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.460135
- Title: Perplexity Cannot Always Tell Right from Wrong
- Title(参考訳): 難易度は常に誤りから正解できない
- Authors: Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu,
- Abstract要約: パープレキシティ(Perplexity)とは、特定の出力に遭遇する際のモデル全体の「サプライズ」レベルを測定する関数である。
厳密な方法で、パープレキシティがモデル選択に不適な計量であることを示す。
- 参考スコア(独自算出の注目度): 23.5175633978795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perplexity -- a function measuring a model's overall level of "surprise" when encountering a particular output -- has gained significant traction in recent years, both as a loss function and as a simple-to-compute metric of model quality. Prior studies have pointed out several limitations of perplexity, often from an empirical manner. Here we leverage recent results on Transformer continuity to show in a rigorous manner how perplexity may be an unsuitable metric for model selection. Specifically, we prove that, if there is any sequence that a compact decoder-only Transformer model predicts accurately and confidently -- a necessary pre-requisite for strong generalisation -- it must imply existence of another sequence with very low perplexity, but not predicted correctly by that same model. Further, by analytically studying iso-perplexity plots, we find that perplexity will not always select for the more accurate model -- rather, any increase in model confidence must be accompanied by a commensurate rise in accuracy for the new model to be selected.
- Abstract(参考訳): 特定の出力に出くわすと、モデル全体の"サプライズ"レベルを測定する機能であるパープレキシティ(Perplexity)は、近年、損失関数やモデル品質の単純かつ計算的な指標として、大きな注目を集めています。
以前の研究では、しばしば経験的な方法から、難解性のいくつかの制限が指摘されている。
ここでは、Transformer連続性に関する最近の結果を利用して、モデル選択に不適な指標であるパープレキシティがいかに厳密な方法で示されるかを示す。
具体的には、コンパクトデコーダのみのトランスフォーマーモデルが(強い一般化に必要な前提条件である)正確かつ確実に予測できるシーケンスが存在する場合、非常に低いパープレキシティを持つ他のシーケンスの存在を暗示しなければならないが、同じモデルによって正しく予測されないことを証明している。
さらに、アイソパープレキシティプロットを解析的に研究することにより、パープレキシティが必ずしもより正確なモデルを選ぶとは限らないことが分かる。
関連論文リスト
- Preventing Model Collapse Under Overparametrization: Optimal Mixing Ratios for Interpolation Learning and Ridge Regression [4.71547360356314]
モデル崩壊は、生成モデルが自身の合成出力を繰り返し訓練した後で劣化するときに起こる。
この反復スキームの下で最小$$$-normとリッジ回帰の正確な誤差式を導出する。
本分析により, 長期予測誤差を最小化する混合重量の興味深い特性が明らかとなった。
論文 参考訳(メタデータ) (2025-09-26T13:34:48Z) - Multi-Level Collaboration in Model Merging [56.31088116526825]
本稿では,モデルマージとモデルアンサンブルの本質的な関係について考察する。
これまでの制限が満たされていない場合でも、モデルのマージによって、アンサンブルと同じような、ほぼ同一かつ優れたパフォーマンスを達成する方法がまだ存在することが分かっています。
論文 参考訳(メタデータ) (2025-03-03T07:45:04Z) - Revisiting Optimism and Model Complexity in the Wake of Overparameterized Machine Learning [6.278498348219108]
まず、(有効)自由度という古典的な統計的概念を再解釈し、拡張することで、第一原理からモデルの複雑さを再考する。
我々は,概念的議論,理論,実験の混合を通じて,提案した複雑性尺度の有用性を実証する。
論文 参考訳(メタデータ) (2024-10-02T06:09:57Z) - Predicting generalization performance with correctness discriminators [56.948321040125734]
未確認データに対して,金のラベルを必要とせず,精度の上下境界を確立する新しいモデルを提案する。
予測された上境界と下限の間に金の精度が確実に成立する様々なタグ付け、構文解析、意味解析タスクを示す。
論文 参考訳(メタデータ) (2023-11-15T22:43:42Z) - Training Normalizing Flows with the Precision-Recall Divergence [73.92251251511199]
特定精度リコールトレードオフを達成することは、em PR-divergencesと呼ぶ家族からの-divergencesの最小化に相当することを示す。
本稿では, 正規化フローをトレーニングして, 偏差を最小化し, 特に, 所与の高精度リコールトレードオフを実現する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2023-02-01T17:46:47Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Learning to Increase the Power of Conditional Randomization Tests [8.883733362171032]
モデル-X条件ランダム化テストは、条件独立性テストのための一般的なフレームワークである。
本稿では,モデルXテストのパワー向上を目的とした新しいモデル適合方式を提案する。
論文 参考訳(メタデータ) (2022-07-03T12:29:25Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。