論文の概要: Corpus Similarity Measures Remain Robust Across Diverse Languages
- arxiv url: http://arxiv.org/abs/2206.04332v1
- Date: Thu, 9 Jun 2022 08:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 23:55:52.276234
- Title: Corpus Similarity Measures Remain Robust Across Diverse Languages
- Title(参考訳): コーパスの類似性は多様な言語にまたがって堅牢である
- Authors: Haipeng Li and Jonathan Dunn
- Abstract要約: 本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。
目的は、(i)同じ言語から異なるコーパスの間の距離を定量化し、(ii)個々のコーパスの均一性を定量化することである。
その結果, コーパス類似度の測定は, 言語家族, 書記システム, 形態素の種類にまたがる妥当性を保っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper experiments with frequency-based corpus similarity measures across
39 languages using a register prediction task. The goal is to quantify (i) the
distance between different corpora from the same language and (ii) the
homogeneity of individual corpora. Both of these goals are essential for
measuring how well corpus-based linguistic analysis generalizes from one
dataset to another. The problem is that previous work has focused on
Indo-European languages, raising the question of whether these measures are
able to provide robust generalizations across diverse languages. This paper
uses a register prediction task to evaluate competing measures across 39
languages: how well are they able to distinguish between corpora representing
different contexts of production? Each experiment compares three corpora from a
single language, with the same three digital registers shared across all
languages: social media, web pages, and Wikipedia. Results show that measures
of corpus similarity retain their validity across different language families,
writing systems, and types of morphology. Further, the measures remain robust
when evaluated on out-of-domain corpora, when applied to low-resource
languages, and when applied to different sets of registers. These findings are
significant given our need to make generalizations across the rapidly
increasing number of corpora available for analysis.
- Abstract(参考訳): 本稿では、レジスタ予測タスクを用いて39言語にわたる周波数ベースコーパス類似度測定実験を行った。
目標は定量化です
(i)同一言語からの異なるコーパス間の距離
(ii)個々のコーパスの均一性。
これらの2つの目標は、コーパスベースの言語分析がデータセットから他のデータセットへいかによく一般化するかを測定するのに不可欠である。
問題は、以前の研究がインド・ヨーロッパ語に焦点を合わせており、これらの尺度が多言語にわたって堅牢な一般化を提供できるかどうかという疑問が提起されていることである。
本稿では,39言語間で競合する尺度を評価するために,レジスタ予測タスクを用いる。
各実験では、1つの言語から3つのコーパスを比較し、同じ3つのデジタルレジスタがすべての言語で共有されている。
その結果, コーパスの類似度は, 言語家族, 書記システム, 形態素の種類によって異なる。
さらに、ドメイン外のコーパス、低リソース言語に適用された場合、異なるレジスタセットに適用された場合、測定は引き続き堅牢である。
これらの発見は、解析のために急速に増加するコーパスの個数にまたがって一般化する必要があることから、非常に重要である。
関連論文リスト
- Exploring Intra and Inter-language Consistency in Embeddings with ICA [17.87419386215488]
独立成分分析(ICA)は、独立鍵特徴を識別することによって、より明確な意味軸を生成する。
これまでの研究では、ICAが言語全体にわたって普遍的な意味軸を明らかにする可能性を示している。
セマンティック軸の整合性は、一つの言語内と複数の言語にまたがる2つの方法で検討した。
論文 参考訳(メタデータ) (2024-06-18T10:24:50Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Validating and Exploring Large Geographic Corpora [0.76146285961466]
ニュージーランド英語のような特定の言語国を表すサブコーパスの品質向上に3つの手法が用いられている。
評価の結果, サブコーパスの妥当性は清掃段階ごとに改善されているが, この改善は言語や人口に不均一に分散していることがわかった。
論文 参考訳(メタデータ) (2024-03-13T02:46:17Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Representations of Language Varieties Are Reliable Given Corpus
Similarity Measures [0.0]
本論文では,9言語の84言語間の類似度を計測する。
本論文は、周波数ベースのコーパス類似度尺度を用いて、これらのソース間に一貫性のある一致があることを示す。
論文 参考訳(メタデータ) (2021-04-03T02:19:46Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Fine-Grained Analysis of Cross-Linguistic Syntactic Divergences [18.19093600136057]
並列コーパスから任意の言語対の発散パターンを抽出するフレームワークを提案する。
我々のフレームワークは、言語間の相違の詳細な図を提供し、以前のアプローチを一般化し、完全に自動化することを示します。
論文 参考訳(メタデータ) (2020-05-07T13:05:03Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。