論文の概要: Average shortest-path length in word-adjacency networks: Chinese versus English
- arxiv url: http://arxiv.org/abs/2601.06361v1
- Date: Sat, 10 Jan 2026 00:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.773154
- Title: Average shortest-path length in word-adjacency networks: Chinese versus English
- Title(参考訳): 単語接続ネットワークにおける平均最短経路長--中国語対英語
- Authors: Jakub Dec, Michał Dolina, Stanisław Drożdż, Jarosław Kwapień, Jin Liu, Tomasz Stanisz,
- Abstract要約: 我々は、中国語と英語の異なる時代に書かれた文学作品から構築された語順ネットワークを分析した。
我々は,句読点がジップフィアン解析における単語のように振る舞うことを示し,通常の単語とともに考えると,著者の属性が向上することを示した。
- 参考スコア(独自算出の注目度): 2.389158198260747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex networks provide powerful tools for analyzing and understanding the intricate structures present in various systems, including natural language. Here, we analyze topology of growing word-adjacency networks constructed from Chinese and English literary works written in different periods. Unconventionally, instead of considering dictionary words only, we also include punctuation marks as if they were ordinary words. Our approach is based on two arguments: (1) punctuation carries genuine information related to emotional state, allows for logical grouping of content, provides a pause in reading, and facilitates understanding by avoiding ambiguity, and (2) our previous works have shown that punctuation marks behave like words in a Zipfian analysis and, if considered together with regular words, can improve authorship attribution in stylometric studies. We focus on a functional dependence of the average shortest path length $L(N)$ on a network size $N$ for different epochs and individual novels in their original language as well as for translations of selected novels into the other language. We approximate the empirical results with a growing network model and obtain satisfactory agreement between the two. We also observe that $L(N)$ behaves asymptotically similar for both languages if punctuation marks are included but becomes sizably larger for Chinese if punctuation marks are neglected.
- Abstract(参考訳): 複雑なネットワークは、自然言語を含む様々なシステムに存在する複雑な構造を分析し理解するための強力なツールを提供する。
ここでは,中国語と英語の異なる文芸作品から構築された語順ネットワークのトポロジを分析する。
必然的に、辞書語のみを考えるのではなく、句読点を通常の単語のように含んでいる。
提案手法は,(1)句読点が感情状態に関連する真の情報を伝達し,内容の論理的グループ化を可能にし,読解の停止を可能にし,曖昧さを回避して理解を容易にすること,(2)従来の研究は,句読点がジグフィアン分析の言葉のように振る舞うこと,そして通常の単語と組み合わせて考えると,文体学における著者帰属を改善すること,の2つの主張に基づいている。
本研究は, 平均最短経路長$L(N)$の関数的依存性に着目し, 異なるエポック, 個々の小説のネットワークサイズ$N$と, 選択した小説の他言語への翻訳に焦点をあてる。
実験結果をネットワークモデルに近似し,両者の良好な一致を得る。
L(N)$は、句読点を含む場合、両方の言語で漸近的に類似して振る舞うが、句読点が無視された場合、中国語ではかなり大きくなる。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Entropy and type-token ratio in gigaword corpora [0.0]
語彙の多様性はタイプトケン比とエントロピーで特徴づけられる。
英語,スペイン語,トルコ語の6つの大規模言語データセットにおける多様性指標について検討した。
与えられたコーパスと言語のテキストのエントロピーとタイプトケン比の実証的機能関係を明らかにした。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Universal versus system-specific features of punctuation usage patterns
in~major Western~languages [0.0]
文章では句読点はその表現の1つと見なすことができる。
本研究は,七大西欧語における世界名文・代表文の大規模なコーパスに基づく。
論文 参考訳(メタデータ) (2022-12-21T16:52:10Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - An In-depth Study on Internal Structure of Chinese Words [34.864343591706984]
本研究は,中国語の単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
中国語の Penn Treebank から 30K 以上の多字語からなる単語内構造木バンク (WIST) を手動で注釈する。
我々は,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
論文 参考訳(メタデータ) (2021-06-01T09:09:51Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。