論文の概要: LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
- arxiv url: http://arxiv.org/abs/2402.14086v2
- Date: Thu, 03 Oct 2024 21:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:35.640355
- Title: LexC-Gen: Generating Data for Extremely Low-Resource Languages with Large Language Models and Bilingual Lexicons
- Title(参考訳): LexC-Gen: 大きな言語モデルとバイリンガル語彙を持つ極低リソース言語のためのデータ生成
- Authors: Zheng-Xin Yong, Cristina Menghini, Stephen H. Bach,
- Abstract要約: LexC-Genは、大規模に低リソースの分類タスクデータを生成する方法である。
両言語レキシコンの条件付けがLexC-Genの重要な構成要素であることを示す。
- 参考スコア(独自算出の注目度): 17.776755522093595
- License:
- Abstract: Data scarcity in low-resource languages can be addressed with word-to-word translations from labeled task data in high-resource languages using bilingual lexicons. However, bilingual lexicons often have limited lexical overlap with task data, which results in poor translation coverage and lexicon utilization. We propose lexicon-conditioned data generation LexC-Gen, a method that generates low-resource-language classification task data at scale. Specifically, LexC-Gen first uses high-resource-language words from bilingual lexicons to generate lexicon-compatible task data, and then it translates them into low-resource languages with bilingual lexicons via word translation. Across 17 extremely low-resource languages, LexC-Gen generated data is competitive with expert-translated gold data, and yields on average 5.6 and 8.9 points improvement over existing lexicon-based word translation methods on sentiment analysis and topic classification tasks respectively. Through ablation study, we show that conditioning on bilingual lexicons is the key component of LexC-Gen. LexC-Gen serves as a potential solution to close the performance gap between open-source multilingual models, such as BLOOMZ and Aya-101, and state-of-the-art commercial models like GPT-4o on low-resource-language tasks.
- Abstract(参考訳): 低リソース言語におけるデータ不足は、バイリンガル語彙を用いた高リソース言語におけるラベル付きタスクデータからの単語間変換に対処することができる。
しかしながら、バイリンガル辞書はタスクデータとの語彙的重複が限られており、翻訳のカバレッジが低下し、語彙の利用率が低下する。
本稿では,レキシコン条件付きデータ生成システムLexC-Genを提案する。
具体的には、LexC-Genはまずバイリンガル語彙から高リソース語を用いて語彙互換のタスクデータを生成し、その後、単語翻訳を介して低リソース言語に翻訳する。
17の極低リソース言語において、LexC-Genの生成したデータは、専門家が翻訳したゴールドデータと競合し、感情分析やトピック分類タスクにおいて、既存の語彙ベースの単語翻訳法よりも平均5.6および8.9ポイント改善される。
アブレーション研究により,両言語レキシコンの条件付けがLexC-Genの鍵となることが明らかとなった。
LexC-Gen は BLOOMZ や Aya-101 のようなオープンソースの多言語モデルと GPT-4o のような最先端の商用モデルの間のパフォーマンスギャップを埋めるための潜在的な解決策である。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - MetaXLR -- Mixed Language Meta Representation Transformation for
Low-resource Cross-lingual Learning based on Multi-Armed Bandit [0.0]
データ駆動方式で選択した複数のソース言語を利用する拡張アプローチを提案する。
我々は,同じ量のデータを使用しながら,非常に低リソース言語に対するNERタスクにおける技術結果の状態を達成した。
論文 参考訳(メタデータ) (2023-05-31T18:22:33Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - XLEnt: Mining a Large Cross-lingual Entity Dataset with
Lexical-Semantic-Phonetic Word Alignment [9.369767055597356]
言語間の名前付き辞書は多言語NLPタスクにとって重要なリソースである。
本稿では,Webから言語間実体辞書を自動的にマイニングするLSP-Alignを提案する。
論文 参考訳(メタデータ) (2021-04-17T16:58:05Z) - Discovering Bilingual Lexicons in Polyglot Word Embeddings [32.53342453685406]
本研究では,多言語単語の埋め込みを生成する多言語コーパスで訓練された1つのスキップグラムモデルを利用する。
本稿では, 比較的単純な近傍サンプリング手法により, バイリンガル辞書を検索できることを示す。
3つのヨーロッパ語対にまたがって、多言語単語の埋め込みは、確かに単語のリッチな意味表現を学習する。
論文 参考訳(メタデータ) (2020-08-31T03:57:50Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。