論文の概要: LuxEmbedder: A Cross-Lingual Approach to Enhanced Luxembourgish Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2412.03331v1
- Date: Wed, 04 Dec 2024 14:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:54.418337
- Title: LuxEmbedder: A Cross-Lingual Approach to Enhanced Luxembourgish Sentence Embeddings
- Title(参考訳): LuxEmbedder:Luxembourgish文の埋め込み強化のための言語横断的アプローチ
- Authors: Fred Philippy, Siwen Guo, Jacques Klein, Tegawendé F. Bissyandé,
- Abstract要約: 文の埋め込みモデルは並列データに大きく依存しており、多くの低リソース言語では不十分である。
この不足は、これらの言語に対する単言語および言語間文埋め込みモデルの最適部分性能をもたらす。
我々は、並列トレーニングデータセットに低リソース言語を含めることが、他の低リソース言語よりも有利であることを示す証拠を提示する。
- 参考スコア(独自算出の注目度): 8.839362558895594
- License:
- Abstract: Sentence embedding models play a key role in various Natural Language Processing tasks, such as in Topic Modeling, Document Clustering and Recommendation Systems. However, these models rely heavily on parallel data, which can be scarce for many low-resource languages, including Luxembourgish. This scarcity results in suboptimal performance of monolingual and cross-lingual sentence embedding models for these languages. To address this issue, we compile a relatively small but high-quality human-generated cross-lingual parallel dataset to train \tool, an enhanced sentence embedding model for Luxembourgish with strong cross-lingual capabilities. Additionally, we present evidence suggesting that including low-resource languages in parallel training datasets can be more advantageous for other low-resource languages than relying solely on high-resource language pairs. Furthermore, recognizing the lack of sentence embedding benchmarks for low-resource languages, we create a paraphrase detection benchmark specifically for Luxembourgish, aiming to partially fill this gap and promote further research.
- Abstract(参考訳): 文の埋め込みモデルは、トピックモデリング、ドキュメントクラスタリング、レコメンデーションシステムなど、様々な自然言語処理タスクにおいて重要な役割を果たす。
しかし、これらのモデルは並列データに大きく依存しており、ルクセンブルク語を含む多くの低リソース言語では不十分である。
この不足は、これらの言語に対する単言語および言語間文埋め込みモデルの最適部分性能をもたらす。
この問題に対処するため,我々は,Luxembourgishの強力な言語機能を備えた文埋め込みモデルである \tool を訓練するために,比較的小型ながら高品質な人間生成言語並列データセットをコンパイルした。
さらに、並列トレーニングデータセットに低リソース言語を含めることが、高リソース言語ペアのみに依存するよりも、他の低リソース言語にとって有利であることを示す証拠を提示する。
さらに、低リソース言語に対する文埋め込みベンチマークの欠如を認識し、このギャップを部分的に埋め、さらなる研究を促進することを目的として、Luxembourgish専用のパラフレーズ検出ベンチマークを作成する。
関連論文リスト
- Enhancing Cross-lingual Sentence Embedding for Low-resource Languages with Word Alignment [13.997006139875563]
低リソース言語における言語間単語表現は、特に現在のモデルにおける高リソース言語における単語表現と一致していない。
そこで本研究では,既製の単語アライメントモデルを用いて,英語と低リソース言語8言語間の単語アライメントを明確にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:58:53Z) - High-quality Data-to-Text Generation for Severely Under-Resourced
Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。
LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。
全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文 参考訳(メタデータ) (2024-02-19T16:29:40Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Exploiting Parallel Corpora to Improve Multilingual Embedding based
Document and Sentence Alignment [1.5293427903448025]
本稿では,文書・文アライメントにおける多言語文表現の性能向上のために,小型並列コーパスを用いた重み付け機構を提案する。
新たに作成されたSinhala- English,Tamil- English,Sinhala-Tamilのデータセットの結果から,この新たな重み付け機構は文書のアライメントと文のアライメントを大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-12T13:00:10Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。