論文の概要: DocHPLT: A Massively Multilingual Document-Level Translation Dataset
- arxiv url: http://arxiv.org/abs/2508.13079v1
- Date: Mon, 18 Aug 2025 16:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.492397
- Title: DocHPLT: A Massively Multilingual Document-Level Translation Dataset
- Title(参考訳): DocHPLT: 非常に多言語なドキュメントレベル翻訳データセット
- Authors: Dayyán O'Brien, Bhavitvya Malik, Ona de Gibert, Pinzhen Chen, Barry Haddow, Jörg Tiedemann,
- Abstract要約: DocHPLTは、これまでで最大のドキュメントレベルの翻訳データセットである。
50言語にまたがる1億2400万行の文書が英語と組み合わせられ、そのうち426億行が文化されている。
- 参考スコア(独自算出の注目度): 18.046636697359435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing document-level machine translation resources are only available for a handful of languages, mostly high-resourced ones. To facilitate the training and evaluation of document-level translation and, more broadly, long-context modeling for global communities, we create DocHPLT, the largest publicly available document-level translation dataset to date. It contains 124 million aligned document pairs across 50 languages paired with English, comprising 4.26 billion sentences, with further possibility to provide 2500 bonus pairs not involving English. Unlike previous reconstruction-based approaches that piece together documents from sentence-level data, we modify an existing web extraction pipeline to preserve complete document integrity from the source, retaining all content including unaligned portions. After our preliminary experiments identify the optimal training context strategy for document-level translation, we demonstrate that LLMs fine-tuned on DocHPLT substantially outperform off-the-shelf instruction-tuned baselines, with particularly dramatic improvements for under-resourced languages. We open-source the dataset under a permissive license, providing essential infrastructure for advancing multilingual document-level translation.
- Abstract(参考訳): 既存の文書レベルの機械翻訳リソースは少数の言語でしか利用できない。
文書レベルの翻訳のトレーニングと評価を容易にし,より広義の長期コンテキストモデリングをグローバルコミュニティに提供するために,ドキュメントレベルの翻訳データセットとしてこれまでで最大規模となるDocHPLTを構築した。
50言語にまたがる1億2400万行の文書対を英語と組み合わせ、さらに2500対のボーナス対を英語に含まない可能性がある。
文レベルのデータから文書をまとめる従来の再構築ベースのアプローチとは異なり、既存のWeb抽出パイプラインを変更して、ソースから完全な文書の整合性を保ち、不整合部分を含むすべてのコンテンツを保持します。
予備実験により文書レベルの翻訳に最適な学習コンテキスト戦略が特定された後、DocHPLTで微調整されたLLMが、特にアンダーリソース言語において大幅に改善され、既製の命令調整ベースラインを大幅に上回ったことが実証された。
我々は、パーミッシブライセンスの下でデータセットをオープンソース化し、多言語文書レベルの翻訳を進めるために必要なインフラを提供します。
関連論文リスト
- FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language [48.79534869177174]
我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。
我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。
パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
論文 参考訳(メタデータ) (2025-06-26T01:01:47Z) - DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory [96.35468670508476]
大規模言語モデル(LLM)のための文書レバレッジ翻訳エージェントであるDelTAを紹介する。
DelTAは、様々な粒度とスパンにまたがる情報を格納するマルチレベルメモリ構造を備えている。
実験結果から,DelTAは翻訳の一貫性や品質において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-10T17:30:09Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form
Summarization in the Legal Domain [2.4815579733050157]
欧州連合法プラットフォーム(EUR-Lex)の法的行為を手作業でキュレートした文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。
文書とその要約は、24の公用語のうちいくつかの言語間の段落整列データとして存在している。
言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。
論文 参考訳(メタデータ) (2022-10-24T17:58:59Z) - LiLT: A Simple yet Effective Language-Independent Layout Transformer for
Structured Document Understanding [33.78249073009646]
構造化文書理解のための単純で効果的な言語非依存型レイアウト変換器(LiLT)を提案する。
LiLTは単一の言語の構造化ドキュメント上で事前訓練され、その後、他の言語で直接微調整される。
8言語の実験結果から、LiLTは様々なダウンストリームベンチマークにおいて、競争力や優れたパフォーマンスを達成可能であることが示されている。
論文 参考訳(メタデータ) (2022-02-28T10:33:01Z) - DOCmT5: Document-Level Pretraining of Multilingual Language Models [9.072507490639218]
DOCmT5は,大規模並列文書を事前学習した多言語列列列言語モデルである。
本稿では, 簡易かつ効果的な事前学習目標である文書順序付け機械翻訳を提案する。
DrMTは、さまざまなドキュメントレベルの生成タスクに対して、強力なベースラインよりも一貫した改善を提供する。
論文 参考訳(メタデータ) (2021-12-16T08:58:52Z) - MultiEURLEX -- A multi-lingual and multi-label legal document
classification dataset for zero-shot cross-lingual transfer [13.24356999779404]
法律文書のトピック分類のための多言語データセットであるMulti-EURLEXを紹介する。
データセットは、正式に23言語に翻訳された65kの欧州連合(EU)の法律で構成され、EUROVOC分類の複数のラベルが注釈付けされている。
そこで、ある言語(ソース)の注釈付きトレーニング文書を利用して、別の言語(ターゲット)のドキュメントを分類します。
論文 参考訳(メタデータ) (2021-09-02T12:52:55Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。