論文の概要: Quantifying patterns of punctuation in modern Chinese prose
- arxiv url: http://arxiv.org/abs/2503.04449v1
- Date: Thu, 06 Mar 2025 14:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:11.923144
- Title: Quantifying patterns of punctuation in modern Chinese prose
- Title(参考訳): 現代中国の散文における句読点パターンの定量化
- Authors: Michał Dolina, Jakub Dec, Stanisław Drożdż, Jarosław Kwapień, Jin Liu, Tomasz Stanisz,
- Abstract要約: 西洋古典文学の分析によると、句読点間の空間の分布は、離散的なワイブル分布と一致している。
中国語文の句読点間の距離分布はWeibullモデルに従っているが、より大きな間隔は英訳より少ない。
この可変性は、複雑で多フラクタルな文構造の形成をサポートする。
- 参考スコア(独自算出の注目度): 1.9246599045323012
- License:
- Abstract: Recent research shows that punctuation patterns in texts exhibit universal features across languages. Analysis of Western classical literature reveals that the distribution of spaces between punctuation marks aligns with a discrete Weibull distribution, typically used in survival analysis. By extending this analysis to Chinese literature represented here by three notable contemporary works, it is shown that Zipf's law applies to Chinese texts similarly to Western texts, where punctuation patterns also improve adherence to the law. Additionally, the distance distribution between punctuation marks in Chinese texts follows the Weibull model, though larger spacing is less frequent than in English translations. Sentence-ending punctuation, representing sentence length, diverges more from this pattern, reflecting greater flexibility in sentence length. This variability supports the formation of complex, multifractal sentence structures, particularly evident in Gao Xingjian's "Soul Mountain". These findings demonstrate that both Chinese and Western texts share universal punctuation and word distribution patterns, underscoring their broad applicability across languages.
- Abstract(参考訳): 近年の研究では、テキストの句読点パターンが言語にまたがる普遍的な特徴を示すことが示されている。
西洋古典文学の分析によれば、句読点間の空間の分布は、通常生存分析に使用される個別のワイブル分布と一致している。
この分析を3つの著名な同時代の著作で表した中国文学にまで広げることで、ジプシフの法則が西欧の文と同様の漢文に適用され、句読点パターンが法律の順守性も向上していることが示されている。
また、中国語文の句読点間の距離分布はWeibullモデルに従っているが、より大きな間隔は英訳より少ない。
文長を表す文終末句は、このパターンからさらに分岐し、文長の柔軟性を反映する。
この変動性は複雑で多フラクタルな文構造の形成を支えており、特にGao Xingjian の "Soul Mountain" で顕著である。
これらの結果は、中国語と西洋語の両方が普遍的な句読点と単語分布パターンを共有しており、言語にまたがる広い適用性を示していることを示している。
関連論文リスト
- Punctuation patterns in "Finnegans Wake" by James Joyce are largely translation-invariant [0.0]
自然言語で書かれたテキストの複雑さ特性は句読点の規則に大きく関係している。
近年の研究では、ジェームズ・ジョイスの有名な「フィネガンス・ウェイク」がヴァイブル家からの極端に分布しており、それに対応するハザード関数が明らかに減少していることが示されている。
この研究の句読点特性は、一般的な場合とは対照的に、大半が翻訳不変であることが示されている。
論文 参考訳(メタデータ) (2025-01-22T15:27:43Z) - Statistics of punctuation in experimental literature -- the remarkable case of "Finnegans Wake" by James Joyce [0.0]
本研究は, 句読点パターンの分析を世界文学のより実験的な部分にまで拡張する。
個別のワイブル分布と句読点間の距離のコンプライアンスは、典型的にはここでも適用される。
ジェームズ・ジョイス(James Joyce)による作品のいくつかはこの点において、関連する分布の尾部がかなり厚くなっているという意味で、異なるものである。
論文 参考訳(メタデータ) (2024-08-31T15:30:51Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Narrowing the Gap between Zero- and Few-shot Machine Translation by
Matching Styles [53.92189950211852]
大規模言語モデルは、文脈内学習を用いたゼロショットと少数ショットの例を用いて、機械翻訳に一般化する能力を示した。
本稿では,このギャップに寄与する要因について検討し,対象コーパスの書字スタイルを一致させることで,このギャップをほとんど(約70%)閉鎖できることを示す。
論文 参考訳(メタデータ) (2023-11-04T03:18:45Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - Universal versus system-specific features of punctuation usage patterns
in~major Western~languages [0.0]
文章では句読点はその表現の1つと見なすことができる。
本研究は,七大西欧語における世界名文・代表文の大規模なコーパスに基づく。
論文 参考訳(メタデータ) (2022-12-21T16:52:10Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - The 'Letter' Distribution in the Chinese Language [24.507787098011907]
研究により、いくつかのアルファベットの文字言語における文字は、統計的使用頻度の分布が著しく類似していることが判明した。
この研究は、人間の言語の一貫性の新たな証拠を提供する。
論文 参考訳(メタデータ) (2020-05-26T05:18:56Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。