論文の概要: ACADATA: Parallel Dataset of Academic Data for Machine Translation
- arxiv url: http://arxiv.org/abs/2510.12621v1
- Date: Tue, 14 Oct 2025 15:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.36614
- Title: ACADATA: Parallel Dataset of Academic Data for Machine Translation
- Title(参考訳): ACADATA:機械翻訳のための学術データの並列データセット
- Authors: Iñaki Lacunza, Javier Garcia Gilabert, Francesca De Luca Fornaciari, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Maite Melero, Marta Villegas,
- Abstract要約: ACAD-TRAINには、96の言語方向にわたる150万の著者生成パラグラフが含まれている。
ACAD-BENCH(ACAD-BENCH)は、12方向をカバーする約6,000の翻訳をキュレートした評価セットである。
- 参考スコア(独自算出の注目度): 3.2003822918750284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ACADATA, a high-quality parallel dataset for academic translation, that consists of two subsets: ACAD-TRAIN, which contains approximately 1.5 million author-generated paragraph pairs across 96 language directions and ACAD-BENCH, a curated evaluation set of almost 6,000 translations covering 12 directions. To validate its utility, we fine-tune two Large Language Models (LLMs) on ACAD-TRAIN and benchmark them on ACAD-BENCH against specialized machine-translation systems, general-purpose, open-weight LLMs, and several large-scale proprietary models. Experimental results demonstrate that fine-tuning on ACAD-TRAIN leads to improvements in academic translation quality by +6.1 and +12.4 d-BLEU points on average for 7B and 2B models respectively, while also improving long-context translation in a general domain by up to 24.9% when translating out of English. The fine-tuned top-performing model surpasses the best propietary and open-weight models on academic translation domain. By releasing ACAD-TRAIN, ACAD-BENCH and the fine-tuned models, we provide the community with a valuable resource to advance research in academic domain and long-context translation.
- Abstract(参考訳): 本稿では、96の言語方向にわたる約150万の著者生成項対を含むACAD-TRAINと、12の方向をカバーする約6,000の翻訳のキュレートされた評価セットであるACAD-BENCHの2つのサブセットからなる、学術翻訳のための高品質な並列データセットであるACADATAについて述べる。
実用性を検証するため、ACAD-TRAINに2つの大言語モデル(LLM)を微調整し、ACAD-BENCHにベンチマークし、特殊な機械翻訳システム、汎用的でオープンウェイトなLLM、およびいくつかの大規模プロプライエタリモデルと比較した。
実験結果から,ACAD-TRAINの微調整により,7Bモデルと2Bモデルの平均翻訳精度は+6.1,+12.4 d-BLEUが向上し,英訳時には最大24.9%向上した。
微調整されたトップパフォーマンスモデルは、学術翻訳領域における最高のプロプライエタリモデルとオープンウェイトモデルを上回る。
ACAD-TRAIN, ACAD-BENCH, および微調整モデルをリリースすることにより, 学術領域における研究の進展と長文翻訳のための貴重な資源をコミュニティに提供する。
関連論文リスト
- Beyond Code Pairs: Dialogue-Based Data Generation for LLM Code Translation [22.50538010082899]
デュアルLLMクセサ-r設計を特徴とする自動データセット生成パイプラインを提案する。
このデータにより、7Bのオープンウェイトモデルでは、コンパイル成功などの主要なメトリクスにおいて、より大きなプロプライエタリなシステムを大幅に上回る結果が得られます。
論文 参考訳(メタデータ) (2025-11-29T05:26:53Z) - EnAnchored-X2X: English-Anchored Optimization for Many-to-Many Translation [49.3025597941589]
大規模言語モデル(LLM)は、英語中心の言語ペアに対して強力な機械翻訳能力を示しているが、直接非英語(x2x)翻訳では性能が劣っている。
この研究は、モデルの確立した英語対x(en2x)能力を活用する合成データ生成フレームワークを通じて、この制限に対処する。
論文 参考訳(メタデータ) (2025-09-24T05:41:30Z) - VARCO-VISION-2.0 Technical Report [5.50851195473534]
VARCO-VISION-2.0は、韓国語と英語のためのオープンウェイトバイリンガル視覚言語モデルである。
このモデルは、文書、チャート、テーブルなどの複雑な入力に対するマルチイメージ理解をサポートし、レイアウト対応のOCRを提供する。
フルスケールの14Bモデルと軽量の1.7Bモデルである。
論文 参考訳(メタデータ) (2025-09-12T09:55:56Z) - Small Open Models Achieve Near Parity with Large Models in Low Resource Literary Translation at a Fraction of the Cost [0.5599792629509229]
TINYFABULIST Translation FRAMEWORK (TF2) は、英語・ルーマニア語文学翻訳におけるデータセット作成、微調整、評価のための統合されたフレームワークである。
DS-TF1-EN-3M (TF1) 上に構築され,ルーマニア語などの低リソース言語におけるリッチで高品質な文芸データセットの必要性に対処する。
論文 参考訳(メタデータ) (2025-09-09T15:07:14Z) - Improving LLMs for Machine Translation Using Synthetic Preference Data [0.0]
比較的少ないデータ資源を用いて,機械翻訳において汎用的な命令をいかに改善できるかを考察する。
Slovene大言語モデルを用いて、優先度最適化(DPO)を用いたGaMSBインストラクトモデルを改善する。
我々は2つのLLM、GaMSBInstructとEuroLLM-9BInstructを使って、英語のウィキペディア記事を翻訳することでトレーニングを作成した。
ベースラインモデルと比較して、微調整されたモデルは、ウィキペディアの記事の翻訳でCOMETのスコアが0.04と0.02に達した。
論文 参考訳(メタデータ) (2025-08-20T14:24:16Z) - Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - XL-Suite: Cross-Lingual Synthetic Training and Evaluation Data for Open-Ended Generation [68.03327518891749]
XL-Instructは高品質な合成データを生成する新しい技術である。
XL-AlpacaEvalは、大規模言語モデルの言語間生成能力を評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2025-03-29T04:34:03Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。