論文の概要: Entropy in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.20052v1
- Date: Mon, 23 Feb 2026 17:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.914531
- Title: Entropy in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるエントロピー
- Authors: Marco Scharringhausen,
- Abstract要約: 大きな言語モデルは有限アルファベットから無限の記号列を生成する。
オープンアメリカン・ナショナル・コーポレーション(OANC)が表現しているように、このソースエントロピー(1語)と自然言語(書き言葉)のエントロピー(1語)を比較する。
以上の結果から,LLMの単語エントロピーは,自然言語の単語エントロピーよりも低速であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this study, the output of large language models (LLM) is considered an information source generating an unlimited sequence of symbols drawn from a finite alphabet. Given the probabilistic nature of modern LLMs, we assume a probabilistic model for these LLMs, following a constant random distribution and the source itself thus being stationary. We compare this source entropy (per word) to that of natural language (written or spoken) as represented by the Open American National Corpus (OANC). Our results indicate that the word entropy of such LLMs is lower than the word entropy of natural speech both in written or spoken form. The long-term goal of such studies is to formalize the intuitions of information and uncertainty in large language training to assess the impact of training an LLM from LLM generated training data. This refers to texts from the world wide web in particular.
- Abstract(参考訳): 本研究では,大言語モデル(LLM)の出力を有限のアルファベットから引き出された記号列を無制限に生成する情報源とみなす。
現代LLMの確率的性質を考えると、これらのLLMの確率的モデルは一定のランダム分布に従っており、ソース自体が定常的であると仮定する。
オープンアメリカン・ナショナル・コーポレーション(OANC)が表現しているように、このソースエントロピー(1語)と自然言語(書き言葉)のエントロピー(1語)を比較した。
以上の結果から,LLMの単語エントロピーは,自然言語の単語エントロピーよりも低速であることが示唆された。
このような研究の長期的な目標は、LLM生成トレーニングデータからLLMをトレーニングする際の影響を評価するために、大規模言語訓練における情報や不確実性の直感を形式化することである。
これは特にワールドワイドウェブのテキストを指す。
関連論文リスト
- Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Deterministic or probabilistic? The psychology of LLMs as random number generators [0.0]
大規模言語モデル(LLM)は、本質的に確率的文脈認識機構を通じてテキスト生成を変換している。
この結果から, 変圧器をベースとしたモデルでは, ランダムな数値出力を誘導すると, 決定論的応答が生じることが判明した。
論文 参考訳(メタデータ) (2025-02-27T10:45:27Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis [5.029635172046762]
言語融合(Language Confusion)とは、大言語モデル(LLM)が所望の言語でもなく、文脈的に適切な言語でもテキストを生成する現象である。
我々は,この混乱を計測し定量化するために設計された,新しい計量であるLanguage Confusion Entropyを導入する。
論文 参考訳(メタデータ) (2024-10-17T05:43:30Z) - Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency [0.11510009152620666]
我々は,Large Language Models(LLM)の言語能力に関する主張は,少なくとも2つの根拠のない仮定に基づいていると主張している。
言語完全性は、自然言語のような明瞭で完全なものが存在すると仮定する。
データ完全性の仮定は、言語がデータによって定量化され、完全にキャプチャされるという信念に依存している。
論文 参考訳(メタデータ) (2024-07-11T18:06:01Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Large Language Models Suffer From Their Own Output: An Analysis of the Self-Consuming Training Loop [0.8602553195689513]
本稿では,Large Language Models (LLM) の自己消費学習ループについて検討する。
本稿では,LLM生成コンテンツの正確性を明確に検証できる論理式に基づく新しい手法を提案する。
自己消費学習ループは正しい出力を生成するが、使用データの割合によって出力の多様性は低下する。
論文 参考訳(メタデータ) (2023-11-28T14:36:43Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。