論文の概要: A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences
- arxiv url: http://arxiv.org/abs/2603.02213v1
- Date: Fri, 06 Feb 2026 16:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.072563
- Title: A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences
- Title(参考訳): 書字言語および他の記号列に対するZipf保存長範囲相関サロゲート
- Authors: Marcelo A. Montemurro, Mirko Degli Esposti,
- Abstract要約: 文字言語やゲノムDNAなどの記号配列は、多くの記号にまたがる特徴周波数分布と長距離相関を示す。
既存のサロゲートモデルは通常、周波数分布または相関特性を保持するが、同時には保存しない。
本稿では、元のシーケンスの経験的シンボル周波数を保存し、その長距離相関構造を再現するサロゲートモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic sequences such as written language and genomic DNA display characteristic frequency distributions and long-range correlations extending over many symbols. In language, this takes the form of Zipf's law for word frequencies together with persistent correlations spanning hundreds or thousands of tokens, while in DNA it is reflected in nucleotide composition and long-memory walks under purine-pyrimidine mappings. Existing surrogate models usually preserve either the frequency distribution or the correlation properties, but not both simultaneously. We introduce a surrogate model that retains both constraints: it preserves the empirical symbol frequencies of the original sequence and reproduces its long-range correlation structure, quantified by the detrended fluctuation analysis (DFA) exponent. Our method generates surrogates of symbolic sequences by mapping fractional Gaussian noise (FGN) onto the empirical histogram through a frequency-preserving assignment. The resulting surrogates match the original in first-order statistics and long-range scaling while randomising short-range dependencies. We validate the model on representative texts in English and Latin, and illustrate its broader applicability with genomic DNA, showing that base composition and DFA scaling are reproduced. This approach provides a principled tool for disentangling structural features of symbolic systems and for testing hypotheses on the origin of scaling laws and memory effects across language, DNA, and other symbolic domains.
- Abstract(参考訳): 文字言語やゲノムDNAなどの記号配列は、多くの記号にまたがる特徴周波数分布と長距離相関を示す。
言語では、この法則は、数百から数千のトークンにまたがる永続的な相関とともに、Zipfの単語周波数に関する法則の形式をとるが、DNAではヌクレオチド合成や、プリンピリミジンマッピングの下での長期記憶ウォークに反映される。
既存のサロゲートモデルは通常、周波数分布または相関特性を保持するが、同時には保存しない。
元のシーケンスの経験的シンボル周波数を保存し,その長範囲相関構造をデトレンド・揺らぎ解析(DFA)指数で定量化する。
本手法は,周波数保存割当てにより,FGNを経験的ヒストグラムにマッピングすることにより,記号列のサロゲートを生成する。
結果として得られたサロゲートは、最初の1次統計値と長距離スケーリング値に一致し、短距離依存をランダム化する。
本モデルの有効性を英語とラテン語で検証し,ゲノムDNAによる広範な適用性を示すとともに,塩基組成とDFAスケーリングが再現されていることを示す。
このアプローチは、シンボリックシステムの構造的特徴を解消し、言語、DNA、その他のシンボリックドメインにまたがるスケーリング法則とメモリ効果の起源に関する仮説をテストするための、原則化されたツールを提供する。
関連論文リスト
- Towards Infinite Length Extrapolation: A Unified Approach [0.0]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、長いシーケンスを処理する能力は、訓練中のコンテキストウィンドウサイズによって根本的に制限されている。
我々は、注目スコアを乗法変換と加法バイアスに分解するものとして、位置符号化手法を再解釈する統一的なフレームワークを使用する。
我々の理論的解析は、無限コンテキスト外挿条件を確立し、ソフトマックスハンドリングが、長距離相関、エントロピー境界性、勾配位置感度を保ちながら、非有界列に対して適切に定義されていることを保証している。
論文 参考訳(メタデータ) (2026-01-03T14:10:23Z) - MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - The Limits of Data Scaling: Sub-token Utilization and Acoustic Saturation in Multilingual ASR [6.627057618324123]
49言語にわたる推論においてWhisperの復号動作を分析する。
モデルのサブトークン空間の利用パターンについて検討する。
論文 参考訳(メタデータ) (2025-10-26T02:13:26Z) - Beyond cognacy [0.21756081703275998]
2つの完全に自動化された手法を比較し、語彙データから直接系統情報を抽出する。
以上の結果から,MSAに基づく推論は,より言語分類に整合し,タイプロジカルな変異を予測し,より明確な系統的シグナルを与えることがわかった。
論文 参考訳(メタデータ) (2025-07-02T06:47:34Z) - MFRS: A Multi-Frequency Reference Series Approach to Scalable and Accurate Time-Series Forecasting [51.94256702463408]
時系列予測は、周波数の異なる周期特性から導かれる。
マルチ周波数参照系列相関解析に基づく新しい時系列予測手法を提案する。
主要なオープンデータセットと合成データセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T11:40:14Z) - Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model [6.085444830169205]
既存の音楽生成モデルは大部分が言語ベースであり、音符の周波数連続性を無視する。
本稿では,音符と意味情報の連成分布に適合し,記号的な音楽条件を生成する音楽ディフアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-04T07:38:38Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Hidden Schema Networks [3.4123736336071864]
帰納的バイアスや明示的関係構造を通じて、新しいニューラルネットワークモデルを導入する。
このモデルは文を記号列にエンコードするが、これは偏りのあるランダム・ウォーカーが訪れたノードに対応する。
このモデルにより,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを示す。
論文 参考訳(メタデータ) (2022-07-08T09:26:19Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。