論文の概要: An Analysis of Letter Dynamics in the English Alphabet
- arxiv url: http://arxiv.org/abs/2401.15560v1
- Date: Sun, 28 Jan 2024 03:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:37:28.336296
- Title: An Analysis of Letter Dynamics in the English Alphabet
- Title(参考訳): 英語アルファベットにおける文字ダイナミクスの分析
- Authors: Neil Zhao, Diana Zheng
- Abstract要約: 英字の統計的解析は,各文字が書字のカテゴリによって現れる平均周波数を調べることで拡張した。
我々は、異なるカテゴリの文章をアルゴリズムで認識するために使用できる距離dと呼ばれる計量を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The frequency with which the letters of the English alphabet appear in
writings has been applied to the field of cryptography, the development of
keyboard mechanics, and the study of linguistics. We expanded on the
statistical analysis of the English alphabet by examining the average frequency
which each letter appears in different categories of writings. We evaluated
news articles, novels, plays, scientific publications and calculated the
frequency of each letter of the alphabet, the information density of each
letter, and the overall letter distribution. Furthermore, we developed a metric
known as distance, d that can be used to algorithmically recognize different
categories of writings. The results of our study can be applied to information
transmission, large data curation, and linguistics.
- Abstract(参考訳): 英語アルファベットの文字が書物に現れる頻度は、暗号の分野、キーボード力学の発展、言語学の研究に応用されている。
英字の統計的解析について,各文字が文章のカテゴリごとに出現する平均周波数を調べることにより拡張した。
我々は、ニュース記事、小説、戯曲、科学出版物を評価し、アルファベットの各文字の頻度、各文字の情報密度、全文字の分布を計算した。
さらに,様々な文章のカテゴリをアルゴリズムで認識できる距離dという指標を開発した。
本研究の結果は,情報伝達,大規模データキュレーション,言語学に応用できる。
関連論文リスト
- Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists [18.138642719651994]
自然言語辞書における母音の予測可能性に基づく調和性の情報理論的尺度を定義する。
音素レベル言語モデル(PLM)を用いてこの調和性を推定する。
我々の研究は、単語リストが類型研究にとって貴重な資源であることを実証している。
論文 参考訳(メタデータ) (2023-08-09T11:32:16Z) - A Dataset of Inertial Measurement Units for Handwritten English
Alphabets [16.74710649245842]
本稿では,手書き英語のアルファベット認識のためのデータセット収集手法を提案する。
IMUは手書きによる動的な動きパターンを捉えるために使われ、アルファベットをより正確に認識することができる。
論文 参考訳(メタデータ) (2023-07-05T17:54:36Z) - Stylistic Fingerprints, POS-tags and Inflected Languages: A Case Study
in Polish [0.0]
屈折言語は単語形式を疎外し、ほとんどの統計的手続きを複雑にする。
本稿では,文体プロファイルの認識における文法的特徴(POS-tag n-gramsによる評価)と補題形式の有用性について検討する。
論文 参考訳(メタデータ) (2022-06-05T15:48:16Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - A Survey of Embedding Space Alignment Methods for Language and Knowledge
Graphs [77.34726150561087]
単語,文,知識グラフの埋め込みアルゴリズムに関する現在の研究状況について調査する。
本稿では、関連するアライメント手法の分類と、この研究分野で使用されるベンチマークデータセットについて論じる。
論文 参考訳(メタデータ) (2020-10-26T16:08:13Z) - A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes [1.009810782568186]
そこで本稿では, 単語を線形に分割するラベリング手法を提案する。
データセットには、1295のユニークなベンガルグラフエムの411kのキュレートされたサンプルが含まれている。
このデータセットは、Kaggleの公開手書きグラフ分類チャレンジの一部として、オープンソースとして公開されている。
論文 参考訳(メタデータ) (2020-10-01T01:51:45Z) - The 'Letter' Distribution in the Chinese Language [24.507787098011907]
研究により、いくつかのアルファベットの文字言語における文字は、統計的使用頻度の分布が著しく類似していることが判明した。
この研究は、人間の言語の一貫性の新たな証拠を提供する。
論文 参考訳(メタデータ) (2020-05-26T05:18:56Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。