論文の概要: How Well Does First-Token Entropy Approximate Word Entropy as a Psycholinguistic Predictor?
- arxiv url: http://arxiv.org/abs/2507.22209v1
- Date: Tue, 29 Jul 2025 20:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.855291
- Title: How Well Does First-Token Entropy Approximate Word Entropy as a Psycholinguistic Predictor?
- Title(参考訳): 初歩的エントロピー近似単語エントロピーはどのように心理言語学的予測因子となるか?
- Authors: Christian Clark, Byung-Doh Oh, William Schuler,
- Abstract要約: 文脈エントロピー(英: Contextual entropy)とは、単語の処理の難しさを捉える心理言語学的な尺度である。
利便性のために、エントロピーは通常、単語の最初のサブワードトークン上の言語モデルの確率分布に基づいて推定される。
我々は単語エントロピーのモンテカルロ推定値を生成し、単語は可変数のトークンにまたがることができる。
- 参考スコア(独自算出の注目度): 16.55240473621401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual entropy is a psycholinguistic measure capturing the anticipated difficulty of processing a word just before it is encountered. Recent studies have tested for entropy-related effects as a potential complement to well-known effects from surprisal. For convenience, entropy is typically estimated based on a language model's probability distribution over a word's first subword token. However, this approximation results in underestimation and potential distortion of true word entropy. To address this, we generate Monte Carlo (MC) estimates of word entropy that allow words to span a variable number of tokens. Regression experiments on reading times show divergent results between first-token and MC word entropy, suggesting a need for caution in using first-token approximations of contextual entropy.
- Abstract(参考訳): 文脈エントロピー(英: Contextual entropy)とは、単語が遭遇する直前に単語を処理することの難しさを捉える心理言語学的尺度である。
近年の研究では、エントロピー関連効果が、仮定からよく知られた効果を補完する可能性があることが確認されている。
利便性のために、エントロピーは通常、単語の最初のサブワードトークン上の言語モデルの確率分布に基づいて推定される。
しかし、この近似は真の単語エントロピーの過小評価と潜在的歪みをもたらす。
これを解決するために,単語エントロピーのモンテカルロ (MC) 推定値を生成し,単語を可変数のトークンに分散させることができる。
読解時間に対する回帰実験は, 単語エントロピーと第1の単語エントロピーの間に異なる結果を示し, 文脈エントロピーの第一の単語エントロピーを用いた場合の注意が必要であることを示唆している。
関連論文リスト
- Entropy-Based Block Pruning for Efficient Large Language Models [81.18339597023187]
性能を維持しつつ効率を向上するエントロピー型プルーニング戦略を提案する。
経験的分析により、隠れ表現のエントロピーは初期ブロックでは減少するが、その後のほとんどのブロックでは徐々に増加することが明らかとなった。
論文 参考訳(メタデータ) (2025-04-04T03:42:34Z) - Unification of observational entropy with maximum entropy principles [2.9127054707887967]
本研究では, 粗粒のエントロピーの定義を導入し, 測定に基づく(観測エントロピー) と最大エントロピーに基づく(ジャイネス) アプローチを結合した粗粒のエントロピーについて述べる。
量子乱数行列モデルと古典的硬球気体のエントロピーの力学について検討する。
論文 参考訳(メタデータ) (2025-03-19T18:00:30Z) - Expectation Entropy as a Password Strength Metric [1.4732811715354452]
期待エントロピーは、ランダムまたはランダムなパスワードの強度を推定するために適用することができる。
例えば、0.4のようなある値の「探索エントロピー」を持つことは、攻撃者がパスワードを見つけるための推測の総数の少なくとも40%を網羅的に検索しなければならないことを意味する。
論文 参考訳(メタデータ) (2024-03-18T15:03:37Z) - Testing the Quantum of Entropy [0.0]
ボルツマン定数 k によって与えられるエントロピーの量子、およびより低いエントロピー極限 $S geq k ln 2$ について話すことができれば明らかになる。
論文 参考訳(メタデータ) (2023-07-19T11:34:54Z) - Multiperiodic Processes: Ergodic Sources with a Sublinear Entropy [0.0]
多周期過程は、多周期列と呼ばれるランダムにシフトした決定論的列で支持される。
実際に同じ条件で、それぞれの多周期過程はヒルバーグの法則と呼ばれるブロックエントロピーの正則な成長を満足する。
論文 参考訳(メタデータ) (2023-02-17T18:27:27Z) - On the Effect of Anticipation on Reading Times [84.27103313675342]
我々は単語の文脈エントロピーとして予測を運用する。
単語の読解時間に対する文脈的エントロピーの影響を示す重要な証拠が得られた。
論文 参考訳(メタデータ) (2022-11-25T18:58:23Z) - Estimating the Entropy of Linguistic Distributions [75.20045001387685]
言語分布に対する異なるエントロピー推定器の実証的有効性について検討した。
報告された効果の大きさは、低エントロピー推定器への過度な信頼のために過大評価されていることを示す。
論文 参考訳(メタデータ) (2022-04-04T13:36:46Z) - Aspects of Pseudo Entropy in Field Theories [0.0]
自由スカラー場の理論とXYスピンモデルを数値的に解析する。
これは多体系における擬エントロピーの基本的性質を明らかにする。
差の非正則性は、初期状態と最終状態が異なる量子相に属する場合にのみ破ることができる。
論文 参考訳(メタデータ) (2021-06-06T13:25:35Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Shannon Entropy Rate of Hidden Markov Processes [77.34726150561087]
隠れマルコフ連鎖のエントロピー率を計算する方法を示す。
また,この手法が最小限の無限予測的特徴を与えることを示す。
続編は、構造に関するチャレンジの第2部に対処します。
論文 参考訳(メタデータ) (2020-08-29T00:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。