Fugu-MT 論文翻訳(概要): The Statistical Signature of LLMs

論文の概要: The Statistical Signature of LLMs

arxiv url: http://arxiv.org/abs/2602.18152v1
Date: Fri, 20 Feb 2026 11:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.309282
Title: The Statistical Signature of LLMs
Title（参考訳）: LLMの統計的特徴
Authors: Ortal Hadad, Edoardo Loru, Jacopo Nudo, Niccolò Di Marco, Matteo Cinelli, Walter Quattrociocchi,
Abstract要約: 統計的正則性に関する単純なモデルに依存しない尺度は、生成規則を表面テキストと直接区別することを示す。設定全体にわたって、圧縮は確率的生成の永続的な構造的シグネチャを明らかにする。本研究は, 生成システムがいかにテキスト生産を再構築するかを定量化するための, シンプルで堅牢なフレームワークを提案する。
参考スコア（独自算出の注目度）: 1.3135750017147134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models generate text through probabilistic sampling from high-dimensional distributions, yet how this process reshapes the structural statistical organization of language remains incompletely characterized. Here we show that lossless compression provides a simple, model-agnostic measure of statistical regularity that differentiates generative regimes directly from surface text. We analyze compression behavior across three progressively more complex information ecosystems: controlled human-LLM continuations, generative mediation of a knowledge infrastructure (Wikipedia vs. Grokipedia), and fully synthetic social interaction environments (Moltbook vs. Reddit). Across settings, compression reveals a persistent structural signature of probabilistic generation. In controlled and mediated contexts, LLM-produced language exhibits higher structural regularity and compressibility than human-written text, consistent with a concentration of output within highly recurrent statistical patterns. However, this signature shows scale dependence: in fragmented interaction environments the separation attenuates, suggesting a fundamental limit to surface-level distinguishability at small scales. This compressibility-based separation emerges consistently across models, tasks, and domains and can be observed directly from surface text without relying on model internals or semantic evaluation. Overall, our findings introduce a simple and robust framework for quantifying how generative systems reshape textual production, offering a structural perspective on the evolving complexity of communication.
Abstract（参考訳）: 大規模言語モデルは高次元分布からの確率的サンプリングによってテキストを生成するが、このプロセスが言語の構造的統計構造をどのように再評価するかは、いまだ不完全である。ここでは、損失のない圧縮は、生成的レギュラーを表面テキストと直接区別する統計正則性の、単純でモデルに依存しない尺度を提供することを示す。制御された人間-LLM継続、知識基盤の生成的仲介(Wikipedia vs. Grokipedia)、完全に合成されたソーシャルインタラクション環境(Moltbook vs. Reddit)の3つの複雑な情報エコシステムの圧縮挙動を分析した。設定全体にわたって、圧縮は確率的生成の永続的な構造的シグネチャを明らかにする。制御および媒介された文脈において、LLMが生成する言語は、高度に反復する統計パターン内の出力の集中と整合して、人書きテキストよりも構造的規則性と圧縮性が高い。しかし、このシグネチャはスケール依存を示しており、断片化された相互作用環境では分離が減衰し、小さなスケールで表面レベルの識別可能性に根本的な限界が示唆される。この圧縮性に基づく分離は、モデル、タスク、ドメイン間で一貫して現れ、モデルの内部やセマンティック評価に頼ることなく、表面テキストから直接観察することができる。全体としては, 生成システムがいかにテキスト生産を再構築するかを定量化するための, シンプルで堅牢なフレームワークを導入し, コミュニケーションの複雑化に関する構造的視点を提供する。

関連論文リスト

Semantic Chunking and the Entropy of Natural Language [1.3592625530347717]
印刷された英語のエントロピー率は1文字あたり約1ビットと推定されている。本稿では,自然言語の複雑なマルチスケール構造を捉えようとする統計モデルを提案する。
論文参考訳（メタデータ） (2026-02-13T18:58:10Z)
SemaPop: Semantic-Persona Conditioned Population Synthesis [7.388951238297018]
本研究では,大言語モデル(LLM)と生成的集団モデルを統合する意味統計的集団合成モデルであるSemaPopを提案する。本研究では、このフレームワークを、SemaPop-GANと呼ばれる勾配ペナルティ(WGAN-GP)のバックボーンを持つWasserstein GANを用いてインスタンス化する。
論文参考訳（メタデータ） (2026-02-12T04:44:34Z)
Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文参考訳（メタデータ） (2026-01-13T03:35:18Z)
Correlation Dimension of Auto-Regressive Large Language Models [11.183390901786659]
大規模言語モデル(LLM)は、自然言語生成において顕著な進歩を遂げた。彼らは、低難易度を示すときでさえ、繰り返しや不整合のようなファジィな行動を示し続けている。本稿では,テキストの複雑さを定量化するために,自己相似性のフラクタル幾何学的尺度である相関次元を導入する。
論文参考訳（メタデータ） (2025-10-24T08:42:23Z)
Probability Signature: Bridging Data Semantics and Embedding Structure in Language Models [8.87728727154868]
トークン間の意味的関係を反映した確率シグネチャのセットを提案する。 Pile corpus のサブセット上で Qwen2.5 アーキテクチャをトレーニングすることで,我々の作業を大規模言語モデル (LLM) に一般化する。
論文参考訳（メタデータ） (2025-09-24T13:49:44Z)
Intrinsic Tensor Field Propagation in Large Language Models: A Novel Approach to Contextual Information Flow [0.0]
内在的場伝播は、様々な言語構造にわたる文脈的保持、依存性の解決、推論を改善する。オープンソーストランスフォーマーベースのモデルで行った実験では、様々な言語構造にわたる文脈保持、依存関係の解決、推論において測定可能な改善が提供されている。
論文参考訳（メタデータ） (2025-01-31T08:32:32Z)
DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文参考訳（メタデータ） (2023-01-23T15:18:54Z)
Simple Primitives with Feasibility- and Contextuality-Dependence for Open-World Compositional Zero-shot Learning [86.5258816031722]
コンポジションゼロショット学習(CZSL)の課題は、トレーニング段階で欠落している新しい状態オブジェクトのイメージを認識することである。コンポジション埋め込みの学習方法は、クローズドワールドCZSLにおいて有効であることが示されている。オープンワールドCZSL (OW-CZSL) では, 組成の濃度が大きいため, その性能は著しく低下する傾向にある。
論文参考訳（メタデータ） (2022-11-05T12:57:06Z)
Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文参考訳（メタデータ） (2022-10-16T04:35:58Z)
SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文参考訳（メタデータ） (2021-01-02T01:15:57Z)
Multi-Fact Correction in Abstractive Text Summarization [98.27031108197944]
Span-Factは、質問応答モデルから学んだ知識を活用して、スパン選択によるシステム生成サマリーの補正を行う2つの事実補正モデルのスイートである。我々のモデルは、ソースコードのセマンティック一貫性を確保するために、反復的または自動回帰的にエンティティを置き換えるために、シングルまたはマルチマスキング戦略を採用している。実験の結果,自動測定と人的評価の両面において,要約品質を犠牲にすることなく,システム生成要約の事実整合性を大幅に向上させることができた。
論文参考訳（メタデータ） (2020-10-06T02:51:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。