論文の概要: Conformal Nucleus Sampling
- arxiv url: http://arxiv.org/abs/2305.02633v1
- Date: Thu, 4 May 2023 08:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:29:15.526094
- Title: Conformal Nucleus Sampling
- Title(参考訳): コンフォーマル核サンプリング
- Authors: Shauli Ravfogel, Yoav Goldberg and Jacob Goldberger
- Abstract要約: 最上位のp$集合が、様々な言語文脈における確率的意味と実際に一致しているかを評価する。
OPTモデルは過信であり、キャリブレーションはモデルサイズで適度な逆スケーリングを示す。
- 参考スコア(独自算出の注目度): 67.5232384936661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models generate text based on successively sampling the next word. A
decoding procedure based on nucleus (top-$p$) sampling chooses from the
smallest possible set of words whose cumulative probability exceeds the
probability $p$. In this work, we assess whether a top-$p$ set is indeed
aligned with its probabilistic meaning in various linguistic contexts. We
employ conformal prediction, a calibration procedure that focuses on the
construction of minimal prediction sets according to a desired confidence
level, to calibrate the parameter $p$ as a function of the entropy of the next
word distribution. We find that OPT models are overconfident, and that
calibration shows a moderate inverse scaling with model size.
- Abstract(参考訳): 言語モデルは次の単語を逐次サンプリングしてテキストを生成する。
核(top-$p$)サンプリングに基づく復号処理は、累積確率が確率$p$を超える最小の単語集合から選択する。
本研究では,p$のトップセットが,様々な言語文脈における確率的意味と実際に一致しているかを評価する。
適合予測(conformal prediction)は、望ましい信頼度に応じて最小の予測セットを構築することに焦点を当てたキャリブレーション手順で、次の単語分布のエントロピーの関数としてパラメータ$p$を校正する。
optモデルは自信過剰であり、キャリブレーションはモデルサイズで中程度の逆スケーリングを示す。
関連論文リスト
- Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z) - Probabilistic Conformal Prediction Using Conditional Random Samples [73.26753677005331]
PCPは、不連続な予測セットによって対象変数を推定する予測推論アルゴリズムである。
効率的で、明示的または暗黙的な条件生成モデルと互換性がある。
論文 参考訳(メタデータ) (2022-06-14T03:58:03Z) - Calibration of Natural Language Understanding Models with Venn--ABERS
Predictors [0.0]
トランスフォーマーは、校正されていない予測や極端な確率を生成する傾向がある。
我々は、事前学習した変換器の選択に基づいて、いくつかの誘導型Venn--ABERS予測器(IVAP)を構築した。
論文 参考訳(メタデータ) (2022-05-21T13:09:01Z) - $k$-Neighbor Based Curriculum Sampling for Sequence Prediction [22.631763991832862]
言語モデルにおける多段階予測は、トレーニングとテスト時間プロセスの相違により困難である。
教師方針を段階的に変更するカリキュラム学習に基づく手法であるtextitNearest-Neighbor Replacement Samplingを提案する。
本研究では, 2つの言語モデリングベンチマークについて報告し, スケジュールされたサンプリングと併用することで, 性能をさらに向上させる方法を提案する。
論文 参考訳(メタデータ) (2021-01-22T20:07:29Z) - On Misspecification in Prediction Problems and Robustness via Improper
Learning [23.64462813525688]
広い種類の損失関数とパラメトリック分布の族に対して、"プロパ"予測子をプレイしたことの後悔は、少なくとも$sqrtgamma n$として境界スケーリングを下げていることが示される。
パラメトリックファミリーの凸体で分布を再生する可能性のあるすべての学習者の家族にしても、これは改善できない例を示します。
論文 参考訳(メタデータ) (2021-01-13T17:54:08Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。