論文の概要: Agglomerative Clustering of Handwritten Numerals to Determine Similarity
of Different Languages
- arxiv url: http://arxiv.org/abs/2012.07599v1
- Date: Sun, 22 Nov 2020 04:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 08:51:42.550325
- Title: Agglomerative Clustering of Handwritten Numerals to Determine Similarity
of Different Languages
- Title(参考訳): 異なる言語の類似性を決定する手書き数字の集合的クラスタリング
- Authors: Md. Rahat-uz-Zaman and Shadmaan Hye
- Abstract要約: 抽出された数字の特徴を解析することにより、言語の類似度と相違度を測定することができる。
手書きの数字データセットは、異なる地域の多くの有名な言語で利用可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten numerals of different languages have various characteristics.
Similarities and dissimilarities of the languages can be measured by analyzing
the extracted features of the numerals. Handwritten numeral datasets are
available and accessible for many renowned languages of different regions. In
this paper, several handwritten numeral datasets of different languages are
collected. Then they are used to find the similarity among those written
languages through determining and comparing the similitude of each handwritten
numerals. This will help to find which languages have the same or adjacent
parent language. Firstly, a similarity measure of two numeral images is
constructed with a Siamese network. Secondly, the similarity of the numeral
datasets is determined with the help of the Siamese network and a new random
sample with replacement similarity averaging technique. Finally, an
agglomerative clustering is done based on the similarities of each dataset.
This clustering technique shows some very interesting properties of the
datasets. The property focused in this paper is the regional resemblance of the
datasets. By analyzing the clusters, it becomes easy to identify which
languages are originated from similar regions.
- Abstract(参考訳): 異なる言語の手書き数字には様々な特徴がある。
抽出した数字の特徴を解析することにより,言語間の類似度と相違度を測定することができる。
手書きの数字データセットは、異なる地域の多くの有名な言語で利用可能である。
本稿では,複数の言語で手書きの数字データセットを収集する。
次に、各手書き数字の同時性を決定し比較することで、それらの記述言語間の類似性を見つける。
これは、どの言語が同じまたは隣り合う親言語を持っているかを見つけるのに役立つ。
まず、2つの数字画像の類似度尺度をシャムネットワークで構築する。
第2に、シームズネットワークと置換類似性平均化技術を用いた新しいランダムサンプルの助けを借りて、数値データセットの類似性を決定する。
最後に、各データセットの類似性に基づいて集約クラスタリングが行われる。
このクラスタリング技術は、データセットの非常に興味深い特性を示しています。
本論文の特長は,データセットの地域的類似性である。
クラスタを解析することにより、どの言語が類似した地域に由来するかを容易に特定できる。
関連論文リスト
- Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - Bridging Natural Language Processing and Psycholinguistics:
computationally grounded semantic similarity datasets for Basque and Spanish [0.0]
本稿では,2つの有名な自然言語処理資源,テキストコーパスと知識ベースに基づく単語類似性データセットを提案する。
現在のデータセットにはバスク語とスペイン語の名詞対の情報が含まれているが、さらに多くの言語に拡張することを意図している。
論文 参考訳(メタデータ) (2023-04-19T12:47:51Z) - The Geometry of Multilingual Language Model Representations [25.880639246639323]
我々は,言語知覚情報を各言語で符号化しながら,多言語モデルが共有多言語表現空間をどのように維持するかを評価する。
部分空間は、中層全体で比較的安定な言語感受性軸に沿って異なり、これらの軸はトークン語彙などの情報を符号化する。
言語感受性および言語ニュートラル軸に投影された表現を可視化し,言語族と音声クラスタを識別し,スパイラル,トーラス,トークン位置情報を表す曲線を可視化する。
論文 参考訳(メタデータ) (2022-05-22T23:58:24Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Feature Selection on Noisy Twitter Short Text Messages for Language
Identification [0.0]
アルゴリズムの効果を分析するために,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用した。
この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。
論文 参考訳(メタデータ) (2020-07-11T09:22:01Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - SpellGCN: Incorporating Phonological and Visual Similarities into
Language Models for Chinese Spelling Check [28.446849414110297]
中国語のスペルチェック(英語: Chinese Spelling Check, CSC)は、中国語のスペルエラーを検出し、訂正するタスクである。
既存の手法では、漢字間の類似性に関する知識を取り入れようと試みている。
本稿では,特殊グラフ畳み込みネットワーク(SpellGCN)を用いて,CSCの言語モデルに音韻的・視覚的類似性を取り入れることを提案する。
論文 参考訳(メタデータ) (2020-04-26T03:34:06Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。