論文の概要: Semantic Chunking and the Entropy of Natural Language
- arxiv url: http://arxiv.org/abs/2602.13194v1
- Date: Fri, 13 Feb 2026 18:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.08799
- Title: Semantic Chunking and the Entropy of Natural Language
- Title(参考訳): 意味的チャンキングと自然言語のエントロピー
- Authors: Weishun Zhong, Doron Sivan, Tankut Can, Mikhail Katkov, Misha Tsodyks,
- Abstract要約: 印刷された英語のエントロピー率は1文字あたり約1ビットと推定されている。
本稿では,自然言語の複雑なマルチスケール構造を捉えようとする統計モデルを提案する。
- 参考スコア(独自算出の注目度): 1.3592625530347717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The entropy rate of printed English is famously estimated to be about one bit per character, a benchmark that modern large language models (LLMs) have only recently approached. This entropy rate implies that English contains nearly 80 percent redundancy relative to the five bits per character expected for random text. We introduce a statistical model that attempts to capture the intricate multi-scale structure of natural language, providing a first-principles account of this redundancy level. Our model describes a procedure of self-similarly segmenting text into semantically coherent chunks down to the single-word level. The semantic structure of the text can then be hierarchically decomposed, allowing for analytical treatment. Numerical experiments with modern LLMs and open datasets suggest that our model quantitatively captures the structure of real texts at different levels of the semantic hierarchy. The entropy rate predicted by our model agrees with the estimated entropy rate of printed English. Moreover, our theory further reveals that the entropy rate of natural language is not fixed but should increase systematically with the semantic complexity of corpora, which are captured by the only free parameter in our model.
- Abstract(参考訳): 印刷された英語のエントロピー率は1文字あたり約1ビットと推定され、現代の大規模言語モデル(LLM)が最近アプローチしたばかりである。
このエントロピーレートは、英語がランダムテキストで期待される文字あたりの5ビットに対して約80%の冗長性を含んでいることを意味する。
本稿では,この冗長度を第一原理として,自然言語の複雑なマルチスケール構造を捉える統計モデルを提案する。
本モデルでは,テキストを意味的に一貫性のあるチャンクに分割する手法について述べる。
テキストの意味構造は階層的に分解され、分析処理が可能である。
現代のLLMとオープンデータセットを用いた数値実験により,本モデルは意味階層の異なるレベルにおける実テキストの構造を定量的に捉えていることが示唆された。
我々のモデルで予測されるエントロピー率は、印刷された英語の推定エントロピー率と一致する。
さらに,本理論は,自然言語のエントロピー速度が固定ではなく,モデル内の唯一の自由パラメータによって捕捉されるコーパスの意味的複雑性によって体系的に増加することを明らかにする。
関連論文リスト
- Correlation Dimension of Auto-Regressive Large Language Models [11.183390901786659]
大規模言語モデル(LLM)は、自然言語生成において顕著な進歩を遂げた。
彼らは、低難易度を示すときでさえ、繰り返しや不整合のようなファジィな行動を示し続けている。
本稿では,テキストの複雑さを定量化するために,自己相似性のフラクタル幾何学的尺度である相関次元を導入する。
論文 参考訳(メタデータ) (2025-10-24T08:42:23Z) - Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models [0.0]
言語モデルにより生成された大きなテキストの対数的パープレキシティは、トークン分布の平均エントロピーに収束しなければならないことを示す。
これは、言語モデルによって生成される全ての長い合成テキストが属しなければならない典型的な集合'を定義する。
論文 参考訳(メタデータ) (2024-05-22T16:23:40Z) - Robustness of the Random Language Model [0.0]
このモデルは、潜在的言語の広大な空間におけるアニーリングの一種として、最初の言語学習の簡単な図を示唆している。
これは、潜在的な単語とカテゴリ間の対称性が自発的に壊れる文法構文への単一の連続的な遷移を意味する。
結果は、言語学における第一言語習得の理論と、機械学習における最近の成功を踏まえて議論される。
論文 参考訳(メタデータ) (2023-09-26T13:14:35Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Locally Typical Sampling [84.62530743899025]
我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。