論文の概要: Analysing Cross-Lingual Transfer in Low-Resourced African Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2309.05311v1
- Date: Mon, 11 Sep 2023 08:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 13:18:19.157837
- Title: Analysing Cross-Lingual Transfer in Low-Resourced African Named Entity
Recognition
- Title(参考訳): 低リソースアフリカ名認識における言語間移動の解析
- Authors: Michael Beukman, Manuel Fokam
- Abstract要約: 低リソース言語10言語間の言語間移動学習の特性について検討する。
一つの言語でうまく機能するモデルは、他の言語への一般化を犠牲にして、しばしばそうする。
ソースとターゲットデータセット間で重複するデータの量は、言語間の地理的あるいは遺伝的距離よりも、転送性能の予測器として優れている。
- 参考スコア(独自算出の注目度): 0.10641561702689348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning has led to large gains in performance for nearly all NLP
tasks while making downstream models easier and faster to train. This has also
been extended to low-resourced languages, with some success. We investigate the
properties of cross-lingual transfer learning between ten low-resourced
languages, from the perspective of a named entity recognition task. We
specifically investigate how much adaptive fine-tuning and the choice of
transfer language affect zero-shot transfer performance. We find that models
that perform well on a single language often do so at the expense of
generalising to others, while models with the best generalisation to other
languages suffer in individual language performance. Furthermore, the amount of
data overlap between the source and target datasets is a better predictor of
transfer performance than either the geographical or genetic distance between
the languages.
- Abstract(参考訳): トランスファー学習によって、ほぼすべてのnlpタスクのパフォーマンスが大幅に向上し、下流モデルのトレーニングが容易かつ高速になった。
これはローソース言語にも拡張され、成功している。
名前付きエンティティ認識タスクの観点から,低リソース言語10言語間の言語間移動学習の特性について検討する。
具体的には、適応的な微調整と転送言語の選択がゼロショット転送性能に与える影響について検討する。
一つの言語でうまく機能するモデルは、しばしば他言語への一般化を犠牲にし、他の言語に最適な一般化を持つモデルは個々の言語のパフォーマンスに苦しむ。
さらに、ソースとターゲットデータセット間で重複するデータの量は、言語間の地理的あるいは遺伝的距離よりも、転送性能の予測因子として優れている。
関連論文リスト
- An Efficient Approach for Studying Cross-Lingual Transfer in Multilingual Language Models [26.72394783468532]
本稿では,他の対象言語に対するゼロショット性能における転送言語の影響を研究するためのテキスト効率の手法を提案する。
以上の結果から,一部の言語,特に事前学習中に見つからない言語は,異なる対象言語に対して極めて有益あるいは有害である可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-29T09:52:18Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - DiTTO: A Feature Representation Imitation Approach for Improving
Cross-Lingual Transfer [15.062937537799005]
ゼロショット転送を改善するためのドメインとしての言語。
我々のアプローチであるDiTTOは、標準のゼロショット微調整法よりも大幅に優れていることを示す。
我々のモデルは、数ショット設定であっても、標準的な微調整法よりも言語間移動がより良くできる。
論文 参考訳(メタデータ) (2023-03-04T08:42:50Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。