論文の概要: BERT Cannot Align Characters
- arxiv url: http://arxiv.org/abs/2109.09700v1
- Date: Mon, 20 Sep 2021 17:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 19:01:49.423031
- Title: BERT Cannot Align Characters
- Title(参考訳): BERTは文字を指定できない
- Authors: Antonis Maronikolakis, Philipp Dufter, Hinrich Sch\"utze
- Abstract要約: より近い2つの言語は、より優れたBERTがキャラクタレベルに調整できることを示します。
BERTはフェイク・イングリッシュ・アライメントに対して英語でうまく機能するが、これは自然言語に同じ程度一般化しない。
英語はギリシア語よりもドイツ語に近縁であり、BERTがそれらといかによく一致しているかを反映している。
- 参考スコア(独自算出の注目度): 4.01776052820812
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In previous work, it has been shown that BERT can adequately align
cross-lingual sentences on the word level. Here we investigate whether BERT can
also operate as a char-level aligner. The languages examined are English,
Fake-English, German and Greek. We show that the closer two languages are, the
better BERT can align them on the character level. BERT indeed works well in
English to Fake-English alignment, but this does not generalize to natural
languages to the same extent. Nevertheless, the proximity of two languages does
seem to be a factor. English is more related to German than to Greek and this
is reflected in how well BERT aligns them; English to German is better than
English to Greek. We examine multiple setups and show that the similarity
matrices for natural languages show weaker relations the further apart two
languages are.
- Abstract(参考訳): 従来の研究では、BERTは単語レベルで言語間文を適切にアライメントできることが示されている。
ここでは,BERTがチャレベル整合器としても機能するかどうかを検討する。
調査された言語は英語、偽英語、ドイツ語、ギリシャ語である。
より近い2つの言語は、より優れたBERTが文字レベルに調整できることを示します。
BERTはFake- Englishアライメントと同様に英語でもうまく機能するが、これは自然言語にも同様に一般化しない。
それでも、2つの言語が近接していることは要因である。
英語はギリシア語よりもドイツ語に深く関連しており、バートがそれらとどのように一致しているかに反映されている。
自然言語における類似度行列はより弱い関係を示し、さらに2つの言語が分離されていることを示す。
関連論文リスト
- Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is
It and How Does It Affect Transfer? [50.48082721476612]
マルチリンガルBERT (mBERT) は, 言語間シンタクティックな機能を示した。
我々は,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討した。
論文 参考訳(メタデータ) (2022-12-21T09:44:08Z) - Don't Forget Cheap Training Signals Before Building Unsupervised
Bilingual Word Embeddings [64.06041300946517]
我々は、教師なしBWE手法を開発する際には、容易にアクセスできる言語間信号が常に考慮されるべきであると主張している。
このような安価な信号はうまく動作し、遠隔言語対においてより複雑な教師なし手法により性能が向上することを示す。
この結果から,BWEを構築する際には,遠隔言語であっても,これらの学習信号を無視すべきでないことが示された。
論文 参考訳(メタデータ) (2022-05-31T12:00:55Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - CERT: Contrastive Self-supervised Learning for Language Understanding [20.17416958052909]
本稿では,トランスフォーマーからのコントラスト型自己教師型表現(CERT)を提案する。
CERTは、文レベルでのコントラッシブな自己教師型学習を用いて、言語表現モデルを事前訓練する。
そこでは,CERT が BERT を 7 タスクで上回り,BERT が 2 タスクで上回り,BERT が 2 タスクで上回り,BERT が 2 タスクで上回る性能である GLUE ベンチマークを用いて,CERT を 11 個の自然言語理解タスクで評価した。
論文 参考訳(メタデータ) (2020-05-16T16:20:38Z) - Identifying Necessary Elements for BERT's Multilinguality [4.822598110892846]
マルチリンガルBERT (mBERT) は高品質なマルチリンガル表現を出力し、効率的なゼロショット転送を可能にする。
本研究の目的は,BERTのアーキテクチャ特性と多言語化に必要な言語の言語特性を同定することである。
論文 参考訳(メタデータ) (2020-05-01T14:27:14Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。