論文の概要: Can LLMs capture stable human-generated sentence entropy measures?
- arxiv url: http://arxiv.org/abs/2602.04570v1
- Date: Wed, 04 Feb 2026 13:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.555902
- Title: Can LLMs capture stable human-generated sentence entropy measures?
- Title(参考訳): LLMは人間の文エントロピーを安定的に捉えることができるか?
- Authors: Estrella Pivel-Villanueva, Elisabeth Frederike Sterner, Franziska Knolle,
- Abstract要約: ブートストラップに基づく収束解析を実装し, エントロピー推定が標本サイズの関数として安定であるかを追跡する。
90%の文がドイツ語で111の応答、英語で81の応答で収束した。
低エントロピーの文は20の応答と高エントロピーの文 (>2.5) を要した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting upcoming words is a core mechanism of language comprehension and may be quantified using Shannon entropy. There is currently no empirical consensus on how many human responses are required to obtain stable and unbiased entropy estimates at the word level. Moreover, large language models (LLMs) are increasingly used as substitutes for human norming data, yet their ability to reproduce stable human entropy remains unclear. Here, we address both issues using two large publicly available cloze datasets in German 1 and English 2. We implemented a bootstrap-based convergence analysis that tracks how entropy estimates stabilize as a function of sample size. Across both languages, more than 97% of sentences reached stable entropy estimates within the available sample sizes. 90% of sentences converged after 111 responses in German and 81 responses in English, while low-entropy sentences (<1) required as few as 20 responses and high-entropy sentences (>2.5) substantially more. These findings provide the first direct empirical validation for common norming practices and demonstrate that convergence critically depends on sentence predictability. We then compared stable human entropy values with entropy estimates derived from several LLMs, including GPT-4o, using both logit-based probability extraction and sampling-based frequency estimation, GPT2-xl/german-GPT-2, RoBERTa Base/GottBERT, and LLaMA 2 7B Chat. GPT-4o showed the highest correspondence with human data, although alignment depended strongly on the extraction method and prompt design. Logit-based estimates minimized absolute error, whereas sampling-based estimates were better in capturing the dispersion of human variability. Together, our results establish practical guidelines for human norming and show that while LLMs can approximate human entropy, they are not interchangeable with stable human-derived distributions.
- Abstract(参考訳): 今後の単語を予測することは言語理解のコアメカニズムであり、シャノンエントロピーを用いて定量化することができる。
現在、単語レベルで安定かつ偏りのないエントロピー推定を得るためには、どれだけの人間の反応が必要かについて、実証的なコンセンサスがない。
さらに,人間の規範データの代用として大規模言語モデル (LLMs) が用いられているが,安定な人間のエントロピーを再現する能力はいまだ不明である。
ここでは、ドイツ語1と英語2の2つの大規模公開クローゼデータセットを用いて、両方の問題に対処する。
我々は,サンプルサイズの関数としてエントロピー推定がどのように安定化するかを追跡するブートストラップに基づく収束解析を実装した。
両言語とも、文の97%以上が使用可能なサンプルサイズ内で安定なエントロピー推定に達した。
90%の文がドイツ語で111応答,英語で81応答,低エントロピーの文は20応答未満,高エントロピーの文は2.5文以上であった。
これらの知見は、一般的な規範の実践に対する最初の直接的実証的検証を提供し、収束が文予測可能性に重大な依存があることを実証する。
次に,ロジットに基づく確率抽出とサンプリングに基づく周波数推定,GPT2-xl/german-GPT-2,RoBERTa Base/GottBERT,LLaMA 2 7B Chatを用いて,安定な人間のエントロピー値と,GPT-4oを含む複数のLLMからのエントロピー推定値を比較した。
GPT-4oは, 抽出法と迅速な設計に強く依存するが, 人体データとの最も高い対応を示した。
対数に基づく推定は絶対誤差を最小限に抑えたが、サンプリングに基づく推定は人間の変数の分散を捉えるのに優れていた。
その結果,LLMはヒトのエントロピーを近似できるが,安定なヒト由来の分布と交換できないことを示す。
関連論文リスト
- Clozing the Gap: Exploring Why Language Model Surprisal Outperforms Cloze Surprisal [7.591490481106253]
クローズタスクに対する人間の反応を利用するか、言語モデル(LM)からの確率を使用するかの2つの方法で、単語がどれだけ予測可能かを定量化できる。
LM確率の利点に関する3つの仮説の証拠を提示する。
論文 参考訳(メタデータ) (2026-01-14T21:38:54Z) - Probabilities Are All You Need: A Probability-Only Approach to Uncertainty Estimation in Large Language Models [13.41454380481593]
不確実性推定は、しばしば予測エントロピー推定を用いて、この問題に対処する鍵となる。
本稿では,応答のトップ-$K$確率を用いて予測エントロピーを近似する,効率的でトレーニング不要な不確実性推定手法を提案する。
論文 参考訳(メタデータ) (2025-11-10T23:31:43Z) - REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Predict the Next Word: Humans exhibit uncertainty in this task and language models _____ [7.581259361859477]
言語モデル(LM)は、人間の生成したテキストに確率を割り当てるように訓練されている。
我々は、この事実を利用して、人間が「次の単語予測」タスクで示す変動性を再現するLMの能力を評価する。
我々は、GPT2、BLOOM、ChatGPTを評価し、人間の不確実性に対するキャリブレーションがかなり低いことを発見した。
論文 参考訳(メタデータ) (2024-02-27T14:11:32Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Estimating the Entropy of Linguistic Distributions [75.20045001387685]
言語分布に対する異なるエントロピー推定器の実証的有効性について検討した。
報告された効果の大きさは、低エントロピー推定器への過度な信頼のために過大評価されていることを示す。
論文 参考訳(メタデータ) (2022-04-04T13:36:46Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。