論文の概要: Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages
- arxiv url: http://arxiv.org/abs/2203.01976v1
- Date: Thu, 3 Mar 2022 19:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:53:34.793796
- Title: Overlap-based Vocabulary Generation Improves Cross-lingual Transfer
Among Related Languages
- Title(参考訳): オーバーラップに基づく語彙生成は関連言語間の言語間移動を改善する
- Authors: Vaidehi Patil, Partha Talukdar, Sunita Sarawagi
- Abstract要約: 語彙重なりの次元に沿った言語族における言語間の関連性は、LRLのコーパス制限を克服するために活用される可能性がある。
そこで我々は,BPE語彙生成アルゴリズムを改良したOverlap BPEを提案する。
- 参考スコア(独自算出の注目度): 18.862296065737347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained multilingual language models such as mBERT and XLM-R have
demonstrated great potential for zero-shot cross-lingual transfer to low
web-resource languages (LRL). However, due to limited model capacity, the large
difference in the sizes of available monolingual corpora between high
web-resource languages (HRL) and LRLs does not provide enough scope of
co-embedding the LRL with the HRL, thereby affecting downstream task
performance of LRLs. In this paper, we argue that relatedness among languages
in a language family along the dimension of lexical overlap may be leveraged to
overcome some of the corpora limitations of LRLs. We propose Overlap BPE
(OBPE), a simple yet effective modification to the BPE vocabulary generation
algorithm which enhances overlap across related languages. Through extensive
experiments on multiple NLP tasks and datasets, we observe that OBPE generates
a vocabulary that increases the representation of LRLs via tokens shared with
HRLs. This results in improved zero-shot transfer from related HRLs to LRLs
without reducing HRL representation and accuracy. Unlike previous studies that
dismissed the importance of token-overlap, we show that in the low-resource
related language setting, token overlap matters. Synthetically reducing the
overlap to zero can cause as much as a four-fold drop in zero-shot transfer
accuracy.
- Abstract(参考訳): mbert や xlm-r のような事前訓練された多言語モデルでは、低webリソース言語 (lrl) へのゼロショットクロスリンガルトランスファーに大きな可能性がある。
しかし、モデル容量が限られているため、高次Webリソース言語(HRL)とLRLの単言語コーパスのサイズが大きく異なるため、LRLとHRLを併用するには十分なスコープが得られず、LRLの下流タスク性能に影響を及ぼす。
本稿では,lrlのコーパス制限を克服するために,語彙重複の次元に沿った言語ファミリーにおける言語間の関係性を活用することができることを論じる。
本稿では,bpe語彙生成アルゴリズムの単純かつ効果的な修正であるbpe (bpe) を提案する。
複数のNLPタスクとデータセットに関する広範な実験を通して、OBPEはHRLと共有されるトークンを介してLRLの表現を増加させる語彙を生成する。
これにより、HRL表現と精度を低下させることなく、関連するHRLからLRLへのゼロショット転送が改善される。
トークンオーバーラップの重要性を否定する従来の研究とは異なり、低リソース関連言語設定ではトークンオーバーラップが重要であることを示す。
合成的に重複をゼロに減らすと、ゼロショット転送精度が4倍に低下する。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models [12.447489454369636]
本稿では,Large Language Models (LLM) を用いた文レベルの幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。
LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成することができる。
論文 参考訳(メタデータ) (2024-07-23T13:40:54Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。
セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。
LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。
エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文 参考訳(メタデータ) (2024-05-10T11:44:05Z) - Comparing LLM prompting with Cross-lingual transfer performance on Indigenous and Low-resource Brazilian Languages [5.473562965178709]
ブラジルの12の低リソース言語(LRL)、アフリカの2つのLRL、そして2つの高リソース言語(HRL)に焦点を当てています。
以上の結果から,LLM は HRL と比較して LRL の音声(POS) ラベル付けに悪影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2024-04-28T19:24:28Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine
Translation for Extremely Low-resource Languages [22.51558549091902]
我々は,超低リソース言語 (ELRL) から英語への機械翻訳 (MT) の課題を,「近縁」な高リソース言語 (HRL) からの言語間移動を活用して解決する。
多くのERRLは、いくつかのHRLと語彙的類似性を共有しており、新しいモデリングの機会を提供する。
既存のサブワードベースのニューラルMTモデルは、HRLとELRLの埋め込み空間を暗黙的に調整するだけであるため、この語彙的類似性を明示的に利用しない。
HRLのトレーニングデータに「文字スパンノイズ増強」に基づく新しいCharSpanアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T07:23:01Z) - Exploiting Language Relatedness for Low Web-Resource Language Model
Adaptation: An Indic Languages Study [14.34516262614775]
言語族における言語間の関連性は、LRLのコーパス制限を克服するために悪用される可能性があると論じる。
我々はインドの言語に焦点をあて,(1)スクリプト(ブラフミック文字から派生した多くのインデックススクリプト)と(2)文構造という2つの次元に沿った関連性を活用する。
論文 参考訳(メタデータ) (2021-06-07T20:43:02Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。