論文の概要: Clozing the Gap: Exploring Why Language Model Surprisal Outperforms Cloze Surprisal
- arxiv url: http://arxiv.org/abs/2601.09886v1
- Date: Wed, 14 Jan 2026 21:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.90574
- Title: Clozing the Gap: Exploring Why Language Model Surprisal Outperforms Cloze Surprisal
- Title(参考訳): クローズド・ザ・ギャップ:なぜ言語モデルが急激なパフォーマンスを損なうのかを探る
- Authors: Sathvik Nair, Byung-Doh Oh,
- Abstract要約: クローズタスクに対する人間の反応を利用するか、言語モデル(LM)からの確率を使用するかの2つの方法で、単語がどれだけ予測可能かを定量化できる。
LM確率の利点に関する3つの仮説の証拠を提示する。
- 参考スコア(独自算出の注目度): 7.591490481106253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How predictable a word is can be quantified in two ways: using human responses to the cloze task or using probabilities from language models (LMs).When used as predictors of processing effort, LM probabilities outperform probabilities derived from cloze data. However, it is important to establish that LM probabilities do so for the right reasons, since different predictors can lead to different scientific conclusions about the role of prediction in language comprehension. We present evidence for three hypotheses about the advantage of LM probabilities: not suffering from low resolution, distinguishing semantically similar words, and accurately assigning probabilities to low-frequency words. These results call for efforts to improve the resolution of cloze studies, coupled with experiments on whether human-like prediction is also as sensitive to the fine-grained distinctions made by LM probabilities.
- Abstract(参考訳): 単語がどれだけ予測可能かは、クローズタスクに対する人間の反応を使うか、言語モデル(LM)からの確率を使うかの2つの方法で定量化することができる。
加工作業の予測器として使用する場合、LM確率は、クローゼデータから導出される確率よりも優れる。
しかし、言語理解における予測の役割について、異なる予測者が異なる科学的結論を導き出す可能性があるため、LM確率が正しい理由からそうすることが重要である。
我々は,低分解能に悩まされないこと,意味的に類似した単語を区別すること,低周波語に確率を正確に割り当てること,の3つの仮説を提示する。
これらの結果は、ヒトのような予測が、LM確率による微妙な区別にも同様に敏感であるかどうかの実験と合わせて、凍結研究の解決に向けた努力を呼びかけている。
関連論文リスト
- Probabilities Are All You Need: A Probability-Only Approach to Uncertainty Estimation in Large Language Models [13.41454380481593]
不確実性推定は、しばしば予測エントロピー推定を用いて、この問題に対処する鍵となる。
本稿では,応答のトップ-$K$確率を用いて予測エントロピーを近似する,効率的でトレーニング不要な不確実性推定手法を提案する。
論文 参考訳(メタデータ) (2025-11-10T23:31:43Z) - Reasoning Under Uncertainty: Exploring Probabilistic Reasoning Capabilities of LLMs [47.20307724127832]
我々は,大規模言語モデル(LLM)の推論能力について,初めて包括的な研究を行った。
我々は,3つの注意深く設計されたタスク,モード識別,最大推定,サンプル生成のモデルを評価する。
経験的評価を通じて、より小さなモデルと大きなモデルの間に明らかなパフォーマンスギャップがあることを実証する。
論文 参考訳(メタデータ) (2025-09-12T22:58:05Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Probabilistic Medical Predictions of Large Language Models [4.825666689707888]
LLM(Large Language Models)は、プロンプトエンジニアリングによる臨床応用において有望であることを示す。
LLMは、透明性と意思決定に不可欠である信頼性の高い予測確率を生み出すのに苦労している。
テキスト生成からの明示的確率と、正しいラベルトークンを予測する可能性から得られた暗黙的確率を比較した。
論文 参考訳(メタデータ) (2024-08-21T03:47:17Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - The Language Model Understood the Prompt was Ambiguous: Probing
Syntactic Uncertainty Through Generation [23.711953448400514]
このような分析に対して,ニューラルネットワークモデル(LM)がどの程度不確実性を示すかを調べる。
LMは複数の解析を同時に追跡できることがわかった。
曖昧な手がかりに対する応答として、LMは正しい解釈を選択することが多いが、時々エラーは改善の潜在的な領域を示す。
論文 参考訳(メタデータ) (2021-09-16T10:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。