Fugu-MT 論文翻訳(概要): ACADATA: Parallel Dataset of Academic Data for Machine Translation

論文の概要: ACADATA: Parallel Dataset of Academic Data for Machine Translation

arxiv url: http://arxiv.org/abs/2510.12621v1
Date: Tue, 14 Oct 2025 15:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-15 19:02:32.36614
Title: ACADATA: Parallel Dataset of Academic Data for Machine Translation
Title（参考訳）: ACADATA:機械翻訳のための学術データの並列データセット
Authors: Iñaki Lacunza, Javier Garcia Gilabert, Francesca De Luca Fornaciari, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Maite Melero, Marta Villegas,
Abstract要約: ACAD-TRAINには、96の言語方向にわたる150万の著者生成パラグラフが含まれている。 ACAD-BENCH(ACAD-BENCH)は、12方向をカバーする約6,000の翻訳をキュレートした評価セットである。
参考スコア（独自算出の注目度）: 3.2003822918750284
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present ACADATA, a high-quality parallel dataset for academic translation, that consists of two subsets: ACAD-TRAIN, which contains approximately 1.5 million author-generated paragraph pairs across 96 language directions and ACAD-BENCH, a curated evaluation set of almost 6,000 translations covering 12 directions. To validate its utility, we fine-tune two Large Language Models (LLMs) on ACAD-TRAIN and benchmark them on ACAD-BENCH against specialized machine-translation systems, general-purpose, open-weight LLMs, and several large-scale proprietary models. Experimental results demonstrate that fine-tuning on ACAD-TRAIN leads to improvements in academic translation quality by +6.1 and +12.4 d-BLEU points on average for 7B and 2B models respectively, while also improving long-context translation in a general domain by up to 24.9% when translating out of English. The fine-tuned top-performing model surpasses the best propietary and open-weight models on academic translation domain. By releasing ACAD-TRAIN, ACAD-BENCH and the fine-tuned models, we provide the community with a valuable resource to advance research in academic domain and long-context translation.
Abstract（参考訳）: 本稿では、96の言語方向にわたる約150万の著者生成項対を含むACAD-TRAINと、12の方向をカバーする約6,000の翻訳のキュレートされた評価セットであるACAD-BENCHの2つのサブセットからなる、学術翻訳のための高品質な並列データセットであるACADATAについて述べる。実用性を検証するため、ACAD-TRAINに2つの大言語モデル(LLM)を微調整し、ACAD-BENCHにベンチマークし、特殊な機械翻訳システム、汎用的でオープンウェイトなLLM、およびいくつかの大規模プロプライエタリモデルと比較した。実験結果から,ACAD-TRAINの微調整により,7Bモデルと2Bモデルの平均翻訳精度は+6.1,+12.4 d-BLEUが向上し,英訳時には最大24.9%向上した。微調整されたトップパフォーマンスモデルは、学術翻訳領域における最高のプロプライエタリモデルとオープンウェイトモデルを上回る。 ACAD-TRAIN, ACAD-BENCH, および微調整モデルをリリースすることにより, 学術領域における研究の進展と長文翻訳のための貴重な資源をコミュニティに提供する。

論文の概要: ACADATA: Parallel Dataset of Academic Data for Machine Translation

関連論文リスト