Fugu-MT 論文翻訳(概要): Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy

論文の概要: Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy

arxiv url: http://arxiv.org/abs/2412.09415v2
Date: Fri, 20 Dec 2024 09:43:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 20:52:52.483851
Title: Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy
Title（参考訳）: 限定データを用いたルクセンブルク語のテキスト生成モデル:バランスの取れた多言語戦略
Authors: Alistair Plum, Tharindu Ranasinghe, Christoph Purschke,
Abstract要約: 本稿では,Luxembourgishに着目した低表現言語のための言語モデル開発における課題について論じる。本稿では,限定されたルクセンブルク語データと同等量のドイツ語とフランス語データを組み合わせた,T5アーキテクチャに基づく新しいテキスト生成モデルを提案する。評価のために,Luxembourgishにとって最初のテキスト生成ベンチマークであるLuxGenを紹介する。
参考スコア（独自算出の注目度）: 7.59001382786429
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper addresses the challenges in developing language models for less-represented languages, with a focus on Luxembourgish. Despite its active development, Luxembourgish faces a digital data scarcity, exacerbated by Luxembourg's multilingual context. We propose a novel text generation model based on the T5 architecture, combining limited Luxembourgish data with equal amounts, in terms of size and type, of German and French data. We hypothesise that a model trained on Luxembourgish, German, and French will improve the model's cross-lingual transfer learning capabilities and outperform monolingual and large multilingual models. To verify this, the study at hand explores whether multilingual or monolingual training is more beneficial for Luxembourgish language generation. For the evaluation, we introduce LuxGen, a text generation benchmark that is the first of its kind for Luxembourgish.
Abstract（参考訳）: 本稿では,Luxembourgishに着目した低表現言語のための言語モデル開発における課題について論じる。その活発な発展にもかかわらず、ルクセンブルク語は、ルクセンブルクの多言語的文脈によって悪化するデジタルデータ不足に直面している。本稿では,T5アーキテクチャに基づく新しいテキスト生成モデルを提案する。我々は、ルクセンブルク語、ドイツ語、フランス語で訓練されたモデルにより、モデルの言語間移動学習能力が向上し、単言語モデルや大規模多言語モデルよりも優れていると仮定する。これを検証するために、ルクセンブルク語の生成において、多言語学習と単言語学習がより有益であるかどうかを検討する。評価のために,Luxembourgishにとって最初のテキスト生成ベンチマークであるLuxGenを紹介する。

関連論文リスト

Adapting Multilingual Embedding Models to Historical Luxembourgish [5.474797258314828]
本研究では,歴史的ルクセンブルク語における言語間セマンティック検索のための多言語埋め込みについて検討した。文のセグメンテーションと翻訳にはGPT-4oを使用し、言語ペア毎に20,000の並列トレーニング文を生成する。コントラスト学習や知識蒸留により,複数の多言語埋め込みモデルを適応させ,全てのモデルの精度を著しく向上させる。
論文参考訳（メタデータ） (2025-02-11T20:35:29Z)
LuxEmbedder: A Cross-Lingual Approach to Enhanced Luxembourgish Sentence Embeddings [8.839362558895594]
文の埋め込みモデルは並列データに大きく依存しており、Luxembourgishを含む多くの低リソース言語では不十分である。この不足は、これらの言語に対する単言語および言語間文埋め込みモデルの最適部分性能をもたらす。我々は、並列トレーニングデータセットに低リソース言語を含めることが、他の低リソース言語よりも有利であることを示す証拠を提示する。
論文参考訳（メタデータ） (2024-12-04T14:02:12Z)
LuxBank: The First Universal Dependency Treebank for Luxembourgish [0.38447712214412116]
ルクセンブルク語(Luxembourgish)は、西ゲルマンの約40万人が話している言語である。ルクセンブルクにおける最初のユニバーサル依存(UD)ツリーバンクであるLuxBankを紹介する。
論文参考訳（メタデータ） (2024-11-07T15:50:40Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文参考訳（メタデータ） (2024-02-01T17:17:55Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Transfer to a Low-Resource Language via Close Relatives: The Case Study on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文参考訳（メタデータ） (2023-04-18T08:42:38Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
Are Pretrained Multilingual Models Equally Fair Across Languages? [0.0]
この研究は多言語モデルの群フェアネスを調査し、これらのモデルが言語間で等しく公平かどうかを問う。我々は、MozArt上の3つの多言語モデル(mBERT、XLM-R、mT5)を評価し、これらのモデルが4つの対象言語で異なるグループ格差を示すことを示す。
論文参考訳（メタデータ） (2022-10-11T13:59:19Z)
Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。これまでの研究では、これは表現が十分に整合していないためです。本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文参考訳（メタデータ） (2021-03-18T21:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。