論文の概要: LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
- arxiv url: http://arxiv.org/abs/2402.14086v2
- Date: Thu, 03 Oct 2024 21:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:35.640355
- Title: LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
- Title(参考訳): LexC-Gen: 大きな言語モデルとバイリンガル語彙を持つ極低リソース言語のためのデータ生成
- Authors: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach,
- Abstract要約: LexC-Genは、大規模に低リソースの分類タスクデータを生成する方法である。
両言語レキシコンの条件付けがLexC-Genの重要な構成要素であることを示す。
- 参考スコア(独自算出の注目度): 17.776755522093595
- License:
- Abstract: Data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, bilingual lexicons often have limited lexical overlap with task data, which results in poor translation coverage and lexicon utilization. We propose lexicon-conditioned data generation LexC-Gen, a method that generates low-resource-language classification task data at scale. Specifically, LexC-Gen first uses high-resource-language words from bilingual lexicons to generate lexicon-compatible task data, and then it translates them into low-resource languages with bilingual lexicons via word translation. Across 17 extremely low-resource languages, LexC-Gen generated data is competitive with expert-translated gold data, and yields on average 5.6 and 8.9 points improvement over existing lexicon-based word translation methods on sentiment analysis and topic classification tasks respectively. Through ablation study, we show that conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen serves as a potential solution to close the performance gap between open-source multilingual models, such as BLOOMZ and Aya-101, and state-of-the-art commercial models like GPT-4o on low-resource-language tasks.
- Abstract(参考訳): 低リソース言語におけるデータ不足は、バイリンガル語彙を用いた高リソース言語におけるラベル付きタスクデータからの単語間変換に対処することができる。
しかしながら、バイリンガル辞書はタスクデータとの語彙的重複が限られており、翻訳のカバレッジが低下し、語彙の利用率が低下する。
本稿では,レキシコン条件付きデータ生成システムLexC-Genを提案する。
具体的には、LexC-Genはまずバイリンガル語彙から高リソース語を用いて語彙互換のタスクデータを生成し、その後、単語翻訳を介して低リソース言語に翻訳する。
17の極低リソース言語において、LexC-Genの生成したデータは、専門家が翻訳したゴールドデータと競合し、感情分析やトピック分類タスクにおいて、既存の語彙ベースの単語翻訳法よりも平均5.6および8.9ポイント改善される。
アブレーション研究により,両言語レキシコンの条件付けがLexC-Genの鍵となることが明らかとなった。
LexC-Gen は BLOOMZ や Aya-101 のようなオープンソースの多言語モデルと GPT-4o のような最先端の商用モデルの間のパフォーマンスギャップを埋めるための潜在的な解決策である。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Bilingual Lexicon Induction for Low-Resource Languages using Graph
Matching via Optimal Transport [21.76143536259808]
最適輸送に基づくグラフマッチング法により,40言語対のバイリンガル語彙誘導性能を改善した。
その方法は特に低い監督力で強い。
論文 参考訳(メタデータ) (2022-10-25T23:09:20Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Adapting High-resource NMT Models to Translate Low-resource Related
Languages without Parallel Data [40.11208706647032]
並列データの不足は、低リソース言語向けの高品質機械翻訳システムのトレーニングにおいて大きな障害となる。
本研究では,この言語的重複を利用して,モノリンガルデータのみを用いた低リソース言語への翻訳を容易にする。
我々の手法であるNMT-Adaptは,低リソース適応にモノリンガルデータを利用するために,デノイング自動符号化,バックトランスレーション,対向目的を組み合わせた手法である。
論文 参考訳(メタデータ) (2021-05-31T16:01:18Z) - XLEnt: Mining a Large Cross-lingual Entity Dataset with
Lexical-Semantic-Phonetic Word Alignment [9.369767055597356]
言語間の名前付き辞書は多言語NLPタスクにとって重要なリソースである。
本稿では,Webから言語間実体辞書を自動的にマイニングするLSP-Alignを提案する。
論文 参考訳(メタデータ) (2021-04-17T16:58:05Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。