論文の概要: Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models
- arxiv url: http://arxiv.org/abs/2605.18504v1
- Date: Mon, 18 May 2026 14:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.808356
- Title: Ancient Greek to Modern Greek Machine Translation: A Novel Benchmark and Fine-Tuning Experiments on LLMs and NMT Models
- Title(参考訳): 古代ギリシア語から現代ギリシア語への機械翻訳: LLMとNMTモデルに関する新しいベンチマークと微調整実験
- Authors: Spyridon Mavromatis, Sokratis Sofianopoulos, Prokopis Prokopidis, Maria Giagkou,
- Abstract要約: 我々はAG-MG Parallel Corpusを132,481対の文列を持つ新しいリソースとして紹介する。
ウェブスクラッピングされた抜粋レベルのデータと多段階の文レベルのアライメントを組み合わせた新しいコーパス生成パイプラインを提案する。
本研究は,3つの微調整戦略の評価を行い,最新のMTモデルの総合ベンチマークを行った。
- 参考スコア(独自算出の注目度): 0.24042587920175496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Translation (MT) for Ancient Greek (AG) to Modern Greek (MG) is a low-resource task, constrained by the lack of large-scale, high-quality parallel data. We address this gap by introducing the AG-MG Parallel Corpus, a new resource containing 132,481 sentence-aligned pairs derived from literary, historical, and biblical texts. We present a novel corpus creation pipeline that combines web-scraped, excerpt-level data with a multi-stage sentence-level alignment, and refinement process. Our method uses VecAlign with LaBSE embeddings, which we first fine-tune on a manually-aligned AG-MG subset, followed by an LLM-based error/misalignment correction phase using Gemini 2.5 Flash to ensure high alignment quality. Furthermore, we provide the first comprehensive benchmark of modern MT models on this task, evaluating three fine-tuning strategies across NMT models (NLLB, M2M100) and a Greek LLM (Llama-Krikri-8B). Our experiments show that fine-tuning yields significant improvements over base models, increasing performance by up to +10.3 BLEU points. Specifically, full-parameter fine-tuning of Llama-Krikri-8B achieves the highest overall performance with a BLEU score of 13.16, while the QLoRA-adapted M2M100-1.2B model demonstrates the largest relative gains and highly competitive results. Our dataset and models represent a significant contribution to Greek NLP.
- Abstract(参考訳): 機械翻訳(MT)は、古代ギリシア語(AG)から現代ギリシア語(MG)への機械翻訳であり、大規模で高品質な並列データがないために制約される。
AG-MG並列コーパス(AG-MG Parallel Corpus)は、文学、歴史、聖書のテキストから132,481対の文を並べた新しいリソースである。
ウェブスクラッピングされた抜粋レベルのデータと多段階の文レベルのアライメントと改良プロセスを組み合わせた新しいコーパス生成パイプラインを提案する。
提案手法では,手動のAG-MGサブセットにVecAlignとLaBSEを組み込み,次にGemini 2.5 Flashを用いたLLMベースのエラー/ミスアライメント補正フェーズを用いて高アライメント品質を確保する。
さらに,NMTモデル (NLLB, M2M100) とギリシャのLLM (Llama-Krikri-8B) の3つの微調整戦略を評価する。
実験の結果, 微調整はベースモデルよりも大幅に改善され, 最大+10.3BLEUポイントの性能が向上した。
具体的には、Llama-Krikri-8Bのフルパラメータの微調整はBLEUスコアが13.16であるのに対して、QLoRAに適応したM2M100-1.2Bモデルは最大の相対的な利得と高い競争結果を示す。
我々のデータセットとモデルは、ギリシャのNLPに大きな貢献をしている。
関連論文リスト
- Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - A Paradigm Shift in Machine Translation: Boosting Translation
Performance of Large Language Models [27.777372498182864]
生成型大規模言語モデル(LLM)のための新しい微調整手法を提案する。
提案手法は,モノリンガルデータに対する初期微調整と,それに続く少数の高品質並列データに対する微調整の2段階からなる。
LLaMA-2を基礎モデルとして,このモデルではゼロショット性能よりも12BLEUおよび12COMETの平均的な改善が達成できることを示した。
論文 参考訳(メタデータ) (2023-09-20T22:53:15Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Reward Optimization for Neural Machine Translation with Learned Metrics [18.633477083783248]
我々は,最先端のモデルベースメトリクスBLEURTを用いてニューラル機械翻訳(NMT)モデルを最適化することが有用かどうかを検討する。
その結果、BLEURTによる報酬最適化は、平滑なBLEUでトレーニングする場合の限られた利益とは対照的に、メトリクススコアを大きなマージンで増加させることができます。
論文 参考訳(メタデータ) (2021-04-15T15:53:31Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。