論文の概要: Identifying the Periodicity of Information in Natural Language
- arxiv url: http://arxiv.org/abs/2510.27241v1
- Date: Fri, 31 Oct 2025 07:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.016783
- Title: Identifying the Periodicity of Information in Natural Language
- Title(参考訳): 自然言語における情報の周期性同定
- Authors: Yulin Ou, Yu Wang, Yang Xu, Hendrik Buschmeier,
- Abstract要約: 我々はAutoPeriod of Surprisal (APS)と呼ばれる新しい手法を導入する。
APSは標準周期性検出アルゴリズムを採用し、単一の文書のサブプライムシーケンスに存在する重要な周期を識別することができる。
言語における情報の周期性は、より長い距離で効果をもたらす構造的要因と他の駆動要因の両方から共同で得られるものであると結論付けている。
- 参考スコア(独自算出の注目度): 6.222108497485838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent theoretical advancement of information density in natural language has brought the following question on desk: To what degree does natural language exhibit periodicity pattern in its encoded information? We address this question by introducing a new method called AutoPeriod of Surprisal (APS). APS adopts a canonical periodicity detection algorithm and is able to identify any significant periods that exist in the surprisal sequence of a single document. By applying the algorithm to a set of corpora, we have obtained the following interesting results: Firstly, a considerable proportion of human language demonstrates a strong pattern of periodicity in information; Secondly, new periods that are outside the distributions of typical structural units in text (e.g., sentence boundaries, elementary discourse units, etc.) are found and further confirmed via harmonic regression modeling. We conclude that the periodicity of information in language is a joint outcome from both structured factors and other driving factors that take effect at longer distances. The advantages of our periodicity detection method and its potentials in LLM-generation detection are further discussed.
- Abstract(参考訳): 自然言語における情報密度の最近の理論的進歩は、次のような質問をデスクで提起している: 自然言語は、その符号化された情報に周期パターンをどの程度示しているのか?
本稿では,AutoPeriod of Surprisal (APS) と呼ばれる新しい手法を導入することで,この問題に対処する。
APSは標準周期性検出アルゴリズムを採用し、単一の文書のサブプライムシーケンスに存在する重要な周期を識別することができる。
コーパスの集合にアルゴリズムを適用することにより、以下の興味深い結果を得た: まず、人間の言語のかなりの割合が情報における周期性の強いパターンを示し、次に、テキスト中の典型的な構造単位の分布外にある新しい周期(例えば、文境界、基本談話単位など)が発見され、さらに調和回帰モデリングによって確認される。
言語における情報の周期性は、より長い距離で効果をもたらす構造的要因と他の駆動要因の両方から共同で得られるものであると結論付けている。
さらに,LLM世代検出における周期性検出法の利点とそのポテンシャルについて考察した。
関連論文リスト
- Augmenting LLMs for General Time Series Understanding and Prediction [2.426309874608745]
時系列データは、医療、金融、環境科学を含む多くの重要な領域における意思決定に不可欠である。
TsLLM(Time Series-augmented LLM)を200万回以上のインターリーブされた時系列とテキストサンプルの大規模なコーパスでトレーニングする。
このトレーニングにより、TsLLMは言語理解と新たに獲得した時間的推論機能の両方を活用することができる。
論文 参考訳(メタデータ) (2025-10-01T16:54:46Z) - The Harmonic Structure of Information Contours [54.38365999922221]
我々は、英語、スペイン語、ドイツ語、オランダ語、バスク語、ブラジルポルトガル語のテキストで、周期的な情報レートのパターンが一貫した証拠を見出した。
多くの支配的な周波数は談話構造と一致しており、これらの振動は意味のある言語組織を反映していることを示唆している。
論文 参考訳(メタデータ) (2025-06-04T12:56:30Z) - Linguistic Structure from a Bottleneck on Sequential Information Processing [5.850665541267672]
予測情報によって制約されたコードに自然言語のような体系性が生じることを示す。
人間の言語は、音韻学、形態学、構文学、意味論のレベルにおいて、低い予測情報を持つように構成されている。
論文 参考訳(メタデータ) (2024-05-20T15:25:18Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。