論文の概要: Fine-Tuning LLMs for Low-Resource Dialect Translation: The Case of Lebanese
- arxiv url: http://arxiv.org/abs/2505.00114v1
- Date: Wed, 30 Apr 2025 18:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.151786
- Title: Fine-Tuning LLMs for Low-Resource Dialect Translation: The Case of Lebanese
- Title(参考訳): 低リソースダイアレクト翻訳のための微調整LDM:レバノンの事例
- Authors: Silvana Yakhni, Ali Chehab,
- Abstract要約: 本稿では,低リソースレバノン方言の翻訳におけるLarge Language Models(LLMs)の有効性について検討する。
我々は,オープンソースのAya23モデルを用いて,基本,コントラスト,文法ヒントチューニングの3つの微調整手法を比較した。
実験では、小さなが文化的に認識されているレバノンのデータセットに基づいて微調整されたモデルが、大規模で非ネイティブなデータでトレーニングされたモデルよりも一貫して優れていることが明らかになった。
- 参考スコア(独自算出の注目度): 2.8161155726745237
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper examines the effectiveness of Large Language Models (LLMs) in translating the low-resource Lebanese dialect, focusing on the impact of culturally authentic data versus larger translated datasets. We compare three fine-tuning approaches: Basic, contrastive, and grammar-hint tuning, using open-source Aya23 models. Experiments reveal that models fine-tuned on a smaller but culturally aware Lebanese dataset (LW) consistently outperform those trained on larger, non-native data. The best results were achieved through contrastive fine-tuning paired with contrastive prompting, which indicates the benefits of exposing translation models to bad examples. In addition, to ensure authentic evaluation, we introduce LebEval, a new benchmark derived from native Lebanese content, and compare it to the existing FLoRes benchmark. Our findings challenge the "More Data is Better" paradigm and emphasize the crucial role of cultural authenticity in dialectal translation. We made our datasets and code available on Github.
- Abstract(参考訳): 本稿では,低リソースレバノン方言の翻訳におけるLarge Language Models (LLMs) の有効性について検討し,より大規模な翻訳データセットに対する文化的信頼データの影響に着目した。
我々は,オープンソースのAya23モデルを用いて,基本,コントラスト,文法ヒントチューニングの3つの微調整手法を比較した。
実験によると、小さなが文化的に認識されているレバノンデータセット(LW)で微調整されたモデルは、大規模で非ネイティブなデータでトレーニングされたモデルよりも一貫して優れています。
コントラスト的な微調整とコントラスト的なプロンプトを組み合わせることで,翻訳モデルを悪い例に公開するメリットを示す。
さらに、本研究では、レバノンのネイティブコンテンツから派生した新しいベンチマークであるLebEvalを導入し、既存のFLoResベンチマークと比較する。
本研究は, 言語翻訳における文化の真正性の重要性を強調し, 「モレ・データ・イズ・ベター」パラダイムに挑戦するものである。
私たちはデータセットとコードをGithubで公開しました。
関連論文リスト
- Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages [5.376127198656944]
1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。
以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification [9.36179617282876]
GPT-4o を用いて ProofWriter データセットの高品質な FOL アノテーション付きサブセットを作成する。
本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。
論文 参考訳(メタデータ) (2024-09-24T21:24:07Z) - How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes [2.0109318570325847]
ソフトウェア分野の特定の組織からTMを用いたLlama 3モデルの微調整の影響について検討する。
トレーニングセット毎にモデルを微調整し,自動メトリクス,BLEU,chrF++,TER,COMETに基づいて評価する。
以上の結果から,全指標にまたがるより大きなデータセットによる翻訳性能の向上が示された。
論文 参考訳(メタデータ) (2024-09-05T12:06:38Z) - A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。