論文の概要: The 'Letter' Distribution in the Chinese Language
- arxiv url: http://arxiv.org/abs/2006.01210v1
- Date: Tue, 26 May 2020 05:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:04:31.968313
- Title: The 'Letter' Distribution in the Chinese Language
- Title(参考訳): 中国語における「レター」分布
- Authors: Qinghua Chen, Yan Wang, Mengmeng Wang, Xiaomeng Li
- Abstract要約: 研究により、いくつかのアルファベットの文字言語における文字は、統計的使用頻度の分布が著しく類似していることが判明した。
この研究は、人間の言語の一貫性の新たな証拠を提供する。
- 参考スコア(独自算出の注目度): 24.507787098011907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Corpus-based statistical analysis plays a significant role in linguistic
research, and ample evidence has shown that different languages exhibit some
common laws. Studies have found that letters in some alphabetic writing
languages have strikingly similar statistical usage frequency distributions.
Does this hold for Chinese, which employs ideogram writing? We obtained letter
frequency data of some alphabetic writing languages and found the common law of
the letter distributions. In addition, we collected Chinese literature corpora
for different historical periods from the Tang Dynasty to the present, and we
dismantled the Chinese written language into three kinds of basic particles:
characters, strokes and constructive parts. The results of the statistical
analysis showed that, in different historical periods, the intensity of the use
of basic particles in Chinese writing varied, but the form of the distribution
was consistent. In particular, the distributions of the Chinese constructive
parts are certainly consistent with those alphabetic writing languages. This
study provides new evidence of the consistency of human languages.
- Abstract(参考訳): コーパスに基づく統計分析は言語研究において重要な役割を担い、様々な言語が共通の法則を示すことを示す証拠は豊富である。
研究により、一部のアルファベットの文字言語では、統計的使用頻度分布が著しく類似していることが判明した。
これは、イデオグラムを用いた中国語に当てはまるか?
いくつかのアルファベット表記言語の文字頻度データを取得し,文字分布の共通法則を見出した。
また、唐代から現在までのさまざまな時代にわたって漢文のコーパスを収集し、漢文を3種類の基本粒子(文字・ストローク・構成部品)に分解した。
統計的分析の結果,漢文における基本粒子の使用強度は時代によって異なっていたが,分布形態は一貫していた。
特に、中国の構成部品の分布は、これらのアルファベット表記言語と確実に一致している。
この研究は、人間の言語の一貫性の新たな証拠を提供する。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Computational Modelling of Plurality and Definiteness in Chinese Noun
Phrases [13.317456093426808]
中国語名詞句(NPs)における複数・定性マーカーの欠落に着目した。
我々は中国語のNPのコーパスを構築し、そのそれぞれに対応する文脈と、その特異性/複数性と定性/不定性を示すラベルを添える。
従来の機械学習モデルと最先端の事前学習言語モデルの両方を用いて計算モデルのバンクを訓練し、各NPの多重性と定性を予測する。
論文 参考訳(メタデータ) (2024-03-07T10:06:54Z) - An Analysis of Letter Dynamics in the English Alphabet [0.0]
英字の統計的解析は,各文字が書字のカテゴリによって現れる平均周波数を調べることで拡張した。
我々は、異なるカテゴリの文章をアルゴリズムで認識するために使用できる距離dと呼ばれる計量を開発した。
論文 参考訳(メタデータ) (2024-01-28T03:54:41Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Universality and diversity in word patterns [0.0]
本稿では,11言語を対象とした語彙統計関係の分析を行う。
言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
論文 参考訳(メタデータ) (2022-08-23T20:03:27Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。