論文の概要: Does Typological Blinding Impede Cross-Lingual Sharing?
- arxiv url: http://arxiv.org/abs/2101.11888v1
- Date: Thu, 28 Jan 2021 09:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 01:00:49.282886
- Title: Does Typological Blinding Impede Cross-Lingual Sharing?
- Title(参考訳): タイポロジーブラインドは言語間共有を妨げるか?
- Authors: Johannes Bjerva and Isabelle Augenstein
- Abstract要約: 入力データから、言語間設定で訓練されたモデルが、タイプ的手がかりを拾い上げることを示す。
言語間の共有とパフォーマンスへの影響について検討する。
- 参考スコア(独自算出の注目度): 31.20201199491578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bridging the performance gap between high- and low-resource languages has
been the focus of much previous work. Typological features from databases such
as the World Atlas of Language Structures (WALS) are a prime candidate for
this, as such data exists even for very low-resource languages. However,
previous work has only found minor benefits from using typological information.
Our hypothesis is that a model trained in a cross-lingual setting will pick up
on typological cues from the input data, thus overshadowing the utility of
explicitly using such features. We verify this hypothesis by blinding a model
to typological information, and investigate how cross-lingual sharing and
performance is impacted. Our model is based on a cross-lingual architecture in
which the latent weights governing the sharing between languages is learnt
during training. We show that (i) preventing this model from exploiting
typology severely reduces performance, while a control experiment reaffirms
that (ii) encouraging sharing according to typology somewhat improves
performance.
- Abstract(参考訳): 高リソース言語と低リソース言語のパフォーマンスギャップを埋めることは、これまでの作業の焦点でした。
World Atlas of Language Structures (WALS) のようなデータベースの分類学的な特徴は、非常に低リソースの言語でさえ存在するため、その主要な候補である。
しかし、以前の研究はタイプ学的な情報を使うことから小さな利点しか得られていない。
我々の仮説は、言語横断的な設定で訓練されたモデルが入力データから類型的手がかりを拾い上げ、そのような特徴を明示的に利用することの有用性を誇張するものである。
この仮説を,タイポロジー情報に対するモデル盲目化によって検証し,言語間共有とパフォーマンスへの影響について検討する。
我々のモデルは、言語間の共有を規定する潜在重みを訓練中に学習する言語間アーキテクチャに基づいている。
i)このモデルがタイポロジーを悪用することを防ぐことはパフォーマンスを著しく低下させるが、制御実験では、(ii)タイポロジーによる共有がパフォーマンスを多少改善することを再確認している。
関連論文リスト
- Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - SIGTYP 2020 Shared Task: Prediction of Typological Features [78.95376120154083]
タイポロジーKBが広く採用されるのを妨げる大きな欠点は、人口が少ないことである。
類型的特徴は相互に相関することが多いため、それらを予測し、自動的に類型的KBを投入することができる。
全体として、このタスクは5つのチームから8つの応募を惹きつけた。
論文 参考訳(メタデータ) (2020-10-16T08:47:24Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。