論文の概要: Does mBERT understand Romansh? Evaluating word embeddings using word
alignment
- arxiv url: http://arxiv.org/abs/2306.08702v1
- Date: Wed, 14 Jun 2023 19:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:30:28.356156
- Title: Does mBERT understand Romansh? Evaluating word embeddings using word
alignment
- Title(参考訳): mBERTはロマンシュを理解していますか。
単語アライメントを用いた単語埋め込みの評価
- Authors: Eyal Liron Dolev
- Abstract要約: 類似度に基づく単語アライメントモデル(SimAlign と Super-Align )と mBERT と XLM-R の単語埋め込みを,ドイツ語とロマンシュ語の並行文に組み合わせて検証する。
mBERTの埋め込みを使用して、両方のモデルがアライメントエラー率0.22に達し、fast_alignを上回っている。
また、ドイツ語とロマンシュ語の単語アライメントのための金の標準も提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We test similarity-based word alignment models (SimAlign and awesome-align)
in combination with word embeddings from mBERT and XLM-R on parallel sentences
in German and Romansh. Since Romansh is an unseen language, we are dealing with
a zero-shot setting. Using embeddings from mBERT, both models reach an
alignment error rate of 0.22, which outperforms fast_align, a statistical
model, and is on par with similarity-based word alignment for seen languages.
We interpret these results as evidence that mBERT contains information that can
be meaningful and applicable to Romansh.
To evaluate performance, we also present a new trilingual corpus, which we
call the DERMIT (DE-RM-IT) corpus, containing press releases made by the Canton
of Grisons in German, Romansh and Italian in the past 25 years. The corpus
contains 4 547 parallel documents and approximately 100 000 sentence pairs in
each language combination. We additionally present a gold standard for
German-Romansh word alignment. The data is available at
https://github.com/eyldlv/DERMIT-Corpus.
- Abstract(参考訳): 類似度に基づく単語アライメントモデル(SimAlign と Super-Align )と mBERT と XLM-R の単語埋め込みを,ドイツ語とロマンシュ語の並行文に組み合わせて検証する。
romanshは目に見えない言語なので、ゼロショットの設定を扱う。
mBERT からの埋め込みを用いて、両方のモデルがアライメントエラー率 0.22 に達し、統計モデルである fast_align を上回り、類似性に基づく単語アライメントと同等である。
我々はこれらの結果を,mBERTが意味があり,ロマンシュに適用可能な情報を含んでいるという証拠として解釈する。
性能を評価するため,過去25年間のドイツ語,ロマンシュ語,イタリア語のCanton of Grisonsによるプレスリリースを含む,DERMIT(DE-RM-IT)コーパスを新たに発表した。
コーパスは4,547の並列文書と約10000の文対を言語の組み合わせに含む。
さらに、ドイツ・ルーマニア語のアライメントの金本位制も提示する。
データはhttps://github.com/eyldlv/DERMIT-Corpusで公開されている。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - FreCDo: A Large Corpus for French Cross-Domain Dialect Identification [22.132457694021184]
本稿では,413,522のフランス語テキストサンプルからなるフランス語方言識別のための新しいコーパスを提案する。
トレーニング、検証、テストの分割は、異なるニュースウェブサイトから収集される。
これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
論文 参考訳(メタデータ) (2022-12-15T10:32:29Z) - A New Aligned Simple German Corpus [2.7981463795578927]
単純ドイツ語のための文列単言語コーパスを新たに提案する。
自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。
文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
論文 参考訳(メタデータ) (2022-09-02T15:14:04Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Subword Sampling for Low Resource Word Alignment [4.663577299263155]
テキスト単位のサブワードサンプリングに基づくアライメントを提案する。
サブワードサンプリング法が6つの言語ペアの単語レベルアライメントを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2020-12-21T19:47:04Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。