論文の概要: Letz Translate: Low-Resource Machine Translation for Luxembourgish
- arxiv url: http://arxiv.org/abs/2303.01347v1
- Date: Thu, 2 Mar 2023 15:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:43:00.464209
- Title: Letz Translate: Low-Resource Machine Translation for Luxembourgish
- Title(参考訳): Letz Translate:Luxembourgish用の低リソース機械翻訳
- Authors: Yewei Song, Saad Ezzini, Jacques Klein, Tegawende Bissyande, Cl\'ement
Lefebvre and Anne Goujon
- Abstract要約: 我々は、ドイツ語に基づく資源効率の高いモデルを構築し、多言語No Languageleft Behindモデルから知識を蒸留し、擬似翻訳を行う。
我々の効率的なモデルは、最先端のNLLBモデルと比較して30%以上高速で、4%以下でしか動作しないことがわかった。
- 参考スコア(独自算出の注目度): 4.860100893494234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing of Low-Resource Languages (LRL) is often
challenged by the lack of data. Therefore, achieving accurate machine
translation (MT) in a low-resource environment is a real problem that requires
practical solutions. Research in multilingual models have shown that some LRLs
can be handled with such models. However, their large size and computational
needs make their use in constrained environments (e.g., mobile/IoT devices or
limited/old servers) impractical. In this paper, we address this problem by
leveraging the power of large multilingual MT models using knowledge
distillation. Knowledge distillation can transfer knowledge from a large and
complex teacher model to a simpler and smaller student model without losing
much in performance. We also make use of high-resource languages that are
related or share the same linguistic root as the target LRL. For our
evaluation, we consider Luxembourgish as the LRL that shares some roots and
properties with German. We build multiple resource-efficient models based on
German, knowledge distillation from the multilingual No Language Left Behind
(NLLB) model, and pseudo-translation. We find that our efficient models are
more than 30\% faster and perform only 4\% lower compared to the large
state-of-the-art NLLB model.
- Abstract(参考訳): 低リソース言語(LRL)の自然言語処理は、データ不足によってしばしば問題となる。
したがって、低リソース環境での正確な機械翻訳(MT)の実現は、実用的な解決策を必要とする真の問題である。
多言語モデルの研究により、いくつかのLRLがそのようなモデルで扱えることが示されている。
しかし、その大きなサイズと計算上のニーズは、制約のある環境(モバイル/IoTデバイスやリミテッド/旧サーバなど)での使用を非現実的にしている。
本稿では,知識蒸留を用いた大規模多言語MTモデルのパワーを活用することで,この問題に対処する。
知識蒸留は、大規模で複雑な教師モデルからよりシンプルで小さな学生モデルに知識を伝達することができる。
また、ターゲットLRLと同じ言語ルーツを関連づけたり、共有したりした高リソース言語も利用しています。
我々はルクセンブルク語をドイツ語といくつかのルーツと性質を共有するLRLとみなす。
我々は、ドイツ語に基づく複数の資源効率モデル、多言語No Languageleft Behind(NLLB)モデルからの知識蒸留、擬翻訳を構築。
従来のNLLBモデルと比較して,効率のよいモデルの方が30\%以上高速で,4\%以下しか動作しないことがわかった。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models [12.447489454369636]
本稿では,Large Language Models (LLM) を用いた文レベルの幻覚検出手法と多言語埋め込みにおける意味的類似性について述べる。
LLMは、いかなる機械翻訳タスクに対しても明示的に訓練されていないにもかかわらず、以前提案されたモデルと同等またはそれ以上の性能を達成することができる。
論文 参考訳(メタデータ) (2024-07-23T13:40:54Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Empirical Studies of Parameter Efficient Methods for Large Language Models of Code and Knowledge Transfer to R [1.9799527196428242]
大きなLangauge Models(LLM)は、ソフトウェア工学(SE)コミュニティで注目を集めています。
本研究は,CodeT5 と CodeLlama 上で,PEFT法,LoRA と Compacter を実証研究する。
自然言語モデルからコードへの知識伝達や、学習した知識を目に見えない言語に適応させる能力について、完全に微調整されたモデルと比較して、それらの性能を評価する。
論文 参考訳(メタデータ) (2024-03-16T03:12:45Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。
低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。
ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文 参考訳(メタデータ) (2020-04-14T13:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。