論文の概要: Predict the Next Word: Humans exhibit uncertainty in this task and language models _____
- arxiv url: http://arxiv.org/abs/2402.17527v2
- Date: Mon, 18 Mar 2024 16:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 23:01:00.206850
- Title: Predict the Next Word: Humans exhibit uncertainty in this task and language models _____
- Title(参考訳): 次の単語を予測する:人間はこのタスクに不確実性を示し、言語モデル______
- Authors: Evgenia Ilia, Wilker Aziz,
- Abstract要約: 言語モデル(LM)は、人間の生成したテキストに確率を割り当てるように訓練されている。
我々は、この事実を利用して、人間が「次の単語予測」タスクで示す変動性を再現するLMの能力を評価する。
我々は、GPT2、BLOOM、ChatGPTを評価し、人間の不確実性に対するキャリブレーションがかなり低いことを発見した。
- 参考スコア(独自算出の注目度): 7.581259361859477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) are statistical models trained to assign probability to human-generated text. As such, it is reasonable to question whether they approximate linguistic variability exhibited by humans well. This form of statistical assessment is difficult to perform at the passage level, for it requires acceptability judgements (i.e., human evaluation) or a robust automated proxy (which is non-trivial). At the word level, however, given some context, samples from an LM can be assessed via exact matching against a prerecorded dataset of alternative single-word continuations of the available context. We exploit this fact and evaluate the LM's ability to reproduce variability that humans (in particular, a population of English speakers) exhibit in the 'next word prediction' task. This can be seen as assessing a form of calibration, which, in the context of text classification, Baan et al. (2022) termed calibration to human uncertainty. We assess GPT2, BLOOM and ChatGPT and find that they exhibit fairly low calibration to human uncertainty. We also verify the failure of expected calibration error (ECE) to reflect this, and as such, advise the community against relying on it in this setting.
- Abstract(参考訳): 言語モデル (LM) は、人間の生成したテキストに確率を割り当てるよう訓練された統計モデルである。
このように、人間の言語的多様性をよく表すかどうかを疑問視することは妥当である。
この形式の統計評価は、受理性判定(人的評価)や堅牢な自動プロキシ(非自明な)を必要とするため、通過レベルでの実施が困難である。
しかしながら、ある文脈が与えられた単語レベルでは、LMからのサンプルは、利用可能なコンテキストの代替の単一単語継続の事前記録されたデータセットと正確なマッチングによって評価することができる。
我々は,この事実を生かし,人間(特に英語話者の集団)が「次の単語予測」タスクで示す多様性を再現するLMの能力を評価する。
これは、テキスト分類の文脈において、Baan et al (2022) は、人間の不確実性に対するキャリブレーション(キャリブレーション)と呼んだ。
我々は、GPT2、BLOOM、ChatGPTを評価し、人間の不確実性に対するキャリブレーションがかなり低いことを発見した。
また, 予測校正誤差(ECE)の誤りを反映し, コミュニティに対して, この設定でそれに頼ることを推奨する。
関連論文リスト
- How to Compute the Probability of a Word [45.23856093235994]
本稿では,単語確率の正しい計算法を導出する。
確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:42Z) - Linguistic Calibration of Long-Form Generations [57.836339732160916]
言語モデル(LM)は、ユーザーに自信を持って幻覚を与えるとき、最適な下流決定をさせるかもしれない。
この問題は、LMが主張が正しい確率を口頭で伝えることで緩和できるが、既存のモデルでは、評価された信頼度のある長文を生成できない。
LMは、その世代がユーザがキャリブレーションされた確率予測を行えるようにすれば、言語的にキャリブレーションされる。
論文 参考訳(メタデータ) (2024-03-30T20:47:55Z) - Temperature-scaling surprisal estimates improve fit to human reading times -- but does it do so for the "right reasons"? [15.773775387121097]
大規模な言語モデルのキャリブレーションは,通常モデルサイズによって改善されることを示す。
温度スケーリングの確率は、読み取り時間に体系的に適合することがわかった。
論文 参考訳(メタデータ) (2023-11-15T19:34:06Z) - Humans and language models diverge when predicting repeating text [52.03471802608112]
我々は,人間とLMのパフォーマンスが分岐するシナリオを提示する。
人間とGPT-2 LMの予測はテキストスパンの最初のプレゼンテーションで強く一致しているが、メモリが役割を担い始めると、その性能は急速にバラバラになる。
このシナリオが,LMを人間の行動に近づける上で,今後の作業に拍車をかけることを期待しています。
論文 参考訳(メタデータ) (2023-10-10T08:24:28Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Translation Error Detection as Rationale Extraction [36.616561917049076]
本稿では,現在最先端の文レベルQEモデルの振る舞いについて検討し,翻訳誤りを検出するために実際に説明が利用できることを示す。
単語レベルQEのための新しい半教師付き手法を導入し、(ii)特徴属性の妥当性を評価するための新しいベンチマークとしてQEタスクを提案する。
論文 参考訳(メタデータ) (2021-08-27T09:35:14Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Prediction Confidence from Neighbors [0.0]
機械学習(ML)モデルがOoD(out-of-distribution)サンプルから正しい予測を抽出することができないことは、重要なアプリケーションにMLを適用する上で大きな障害となる。
特徴空間距離は予測に自信を与える有意義な尺度であることを示す。
これにより、重要なアプリケーションにおけるモデルの早期かつ安全なデプロイが可能になり、常に変化する条件下でのモデルのデプロイには不可欠である。
論文 参考訳(メタデータ) (2020-03-31T09:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。