論文の概要: ACADATA: Parallel Dataset of Academic Data for Machine Translation
- arxiv url: http://arxiv.org/abs/2510.12621v1
- Date: Tue, 14 Oct 2025 15:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.36614
- Title: ACADATA: Parallel Dataset of Academic Data for Machine Translation
- Title(参考訳): ACADATA:機械翻訳のための学術データの並列データセット
- Authors: Iñaki Lacunza, Javier Garcia Gilabert, Francesca De Luca Fornaciari, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Maite Melero, Marta Villegas,
- Abstract要約: ACAD-TRAINには、96の言語方向にわたる150万の著者生成パラグラフが含まれている。
ACAD-BENCH(ACAD-BENCH)は、12方向をカバーする約6,000の翻訳をキュレートした評価セットである。
- 参考スコア(独自算出の注目度): 3.2003822918750284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ACADATA, a high-quality parallel dataset for academic translation, that consists of two subsets: ACAD-TRAIN, which contains approximately 1.5 million author-generated paragraph pairs across 96 language directions and ACAD-BENCH, a curated evaluation set of almost 6,000 translations covering 12 directions. To validate its utility, we fine-tune two Large Language Models (LLMs) on ACAD-TRAIN and benchmark them on ACAD-BENCH against specialized machine-translation systems, general-purpose, open-weight LLMs, and several large-scale proprietary models. Experimental results demonstrate that fine-tuning on ACAD-TRAIN leads to improvements in academic translation quality by +6.1 and +12.4 d-BLEU points on average for 7B and 2B models respectively, while also improving long-context translation in a general domain by up to 24.9% when translating out of English. The fine-tuned top-performing model surpasses the best propietary and open-weight models on academic translation domain. By releasing ACAD-TRAIN, ACAD-BENCH and the fine-tuned models, we provide the community with a valuable resource to advance research in academic domain and long-context translation.
- Abstract(参考訳): 本稿では、96の言語方向にわたる約150万の著者生成項対を含むACAD-TRAINと、12の方向をカバーする約6,000の翻訳のキュレートされた評価セットであるACAD-BENCHの2つのサブセットからなる、学術翻訳のための高品質な並列データセットであるACADATAについて述べる。
実用性を検証するため、ACAD-TRAINに2つの大言語モデル(LLM)を微調整し、ACAD-BENCHにベンチマークし、特殊な機械翻訳システム、汎用的でオープンウェイトなLLM、およびいくつかの大規模プロプライエタリモデルと比較した。
実験結果から,ACAD-TRAINの微調整により,7Bモデルと2Bモデルの平均翻訳精度は+6.1,+12.4 d-BLEUが向上し,英訳時には最大24.9%向上した。
微調整されたトップパフォーマンスモデルは、学術翻訳領域における最高のプロプライエタリモデルとオープンウェイトモデルを上回る。
ACAD-TRAIN, ACAD-BENCH, および微調整モデルをリリースすることにより, 学術領域における研究の進展と長文翻訳のための貴重な資源をコミュニティに提供する。
関連論文リスト
- Improving LLMs for Machine Translation Using Synthetic Preference Data [0.0]
比較的少ないデータ資源を用いて,機械翻訳において汎用的な命令をいかに改善できるかを考察する。
Slovene大言語モデルを用いて、優先度最適化(DPO)を用いたGaMSBインストラクトモデルを改善する。
我々は2つのLLM、GaMSBInstructとEuroLLM-9BInstructを使って、英語のウィキペディア記事を翻訳することでトレーニングを作成した。
ベースラインモデルと比較して、微調整されたモデルは、ウィキペディアの記事の翻訳でCOMETのスコアが0.04と0.02に達した。
論文 参考訳(メタデータ) (2025-08-20T14:24:16Z) - Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。