論文の概要: ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus
- arxiv url: http://arxiv.org/abs/2107.06632v2
- Date: Thu, 15 Jul 2021 08:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 10:48:21.405885
- Title: ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus
- Title(参考訳): ParCourE:多言語コーパスのための並列コーパスエクスプローラ
- Authors: Ayyoob Imani, Masoud Jalili Sabet, Philipp Dufter, Michael Cysouw,
Hinrich Sch\"utze
- Abstract要約: 多言語NLPの進展には,言語の種類的特性の研究が不可欠である。
私たちはParCourEという,1334の言語をカバーする,単語を並べた並列コーパスを閲覧できるオンラインツールを提供しています。
- 参考スコア(独自算出の注目度): 2.7036498789349244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With more than 7000 languages worldwide, multilingual natural language
processing (NLP) is essential both from an academic and commercial perspective.
Researching typological properties of languages is fundamental for progress in
multilingual NLP. Examples include assessing language similarity for effective
transfer learning, injecting inductive biases into machine learning models or
creating resources such as dictionaries and inflection tables. We provide
ParCourE, an online tool that allows to browse a word-aligned parallel corpus,
covering 1334 languages. We give evidence that this is useful for typological
research. ParCourE can be set up for any parallel corpus and can thus be used
for typological research on other corpora as well as for exploring their
quality and properties.
- Abstract(参考訳): 全世界で7000以上の言語を持つ多言語自然言語処理(nlp)は、学術的・商業的にも不可欠である。
多言語NLPの進展には,言語の種類的特性の研究が不可欠である。
例えば、効果的な転送学習のための言語類似性の評価、機械学習モデルへの帰納的バイアスの注入、辞書やインフレクションテーブルなどのリソースの作成などだ。
我々は,1334言語をカバーする単語対応並列コーパスを閲覧可能なオンラインツールparcoureを提供する。
これは類型研究に有用であることを示す。
パークールは任意の並列コーパスに設定でき、それによって他のコーパスのタイプ学研究や、その品質と特性の探求に使うことができる。
関連論文リスト
- A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Examining Cross-lingual Contextual Embeddings with Orthogonal Structural
Probes [0.2538209532048867]
オルソゴン構造プローブ(Limisiewicz and Marevcek, 2021)では、特定の言語的特徴についてこの疑問に答えることができる。
InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。
ゼロショットと少数ショットのクロスランガル構文解析にこの結果を適用した。
論文 参考訳(メタデータ) (2021-09-10T15:03:11Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Are pre-trained text representations useful for multilingual and
multi-dimensional language proficiency modeling? [6.294759639481189]
本稿では,多次元多言語習熟度分類における事前学習および微調整多言語組込みの役割に関する実験と観察について述べる。
提案手法は,多言語習熟度モデリングに有用であるが,どの特徴も言語習熟度の全次元において一貫した最高の性能を得られていないことを示唆する。
論文 参考訳(メタデータ) (2021-02-25T16:23:52Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。