論文の概要: UPRPRC: Unified Pipeline for Reproducing Parallel Resources -- Corpus from the United Nations
- arxiv url: http://arxiv.org/abs/2509.15789v1
- Date: Fri, 19 Sep 2025 09:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.097281
- Title: UPRPRC: Unified Pipeline for Reproducing Parallel Resources -- Corpus from the United Nations
- Title(参考訳): UPRPRC: 並列リソースを再生するための統一パイプライン -- 国連の企業
- Authors: Qiuyang Lu, Fangjian Shen, Zhengkai Tang, Qiang Liu, Hexuan Cheng, Hui Liu, Wushao Wen,
- Abstract要約: 我々は,人間が翻訳した非AI生成コンテンツからなる,最大規模の並列コーパスを構築した。
得られたコーパスには7億1300万以上の英トークンが含まれており、これは以前の作業の規模を2倍にしている。
私たちのコードとコーパスはMITライセンスでアクセスできます。
- 参考スコア(独自算出の注目度): 12.597061194393847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality and accessibility of multilingual datasets are crucial for advancing machine translation. However, previous corpora built from United Nations documents have suffered from issues such as opaque process, difficulty of reproduction, and limited scale. To address these challenges, we introduce a complete end-to-end solution, from data acquisition via web scraping to text alignment. The entire process is fully reproducible, with a minimalist single-machine example and optional distributed computing steps for scalability. At its core, we propose a new Graph-Aided Paragraph Alignment (GAPA) algorithm for efficient and flexible paragraph-level alignment. The resulting corpus contains over 713 million English tokens, more than doubling the scale of prior work. To the best of our knowledge, this represents the largest publicly available parallel corpus composed entirely of human-translated, non-AI-generated content. Our code and corpus are accessible under the MIT License.
- Abstract(参考訳): 多言語データセットの品質とアクセシビリティは、機械翻訳の進歩に不可欠である。
しかし、国連文書から作られた以前のコーパスは、不透明なプロセス、再現の困難、限られた規模といった問題に悩まされている。
これらの課題に対処するため、Webスクレイピングによるデータ取得からテキストアライメントまで、完全なエンドツーエンドソリューションを導入しました。
プロセス全体が完全に再現可能で、最小限のシングルマシンの例と、拡張性のためのオプションの分散コンピューティングステップがある。
その中核として,グラフ支援パラグラフアライメント(GAPA)アルゴリズムを提案する。
得られたコーパスには7億1300万以上の英トークンが含まれており、これは以前の作業の規模を2倍にしている。
私たちの知る限りでは、これは人間が翻訳した非AI生成コンテンツで構成された、公開可能な最大の並列コーパスである。
私たちのコードとコーパスはMITライセンスでアクセスできます。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - NAIST-SIC-Aligned: an Aligned English-Japanese Simultaneous Interpretation Corpus [23.49376007047965]
同時解釈(SI)データが同時機械翻訳(SiMT)に与える影響は依然として疑問である。
自動整列した英語と日本語のSIデータセットであるNAIST-SIC-Alignedを導入する。
その結果,SIデータでトレーニングしたモデルでは,ベースラインよりも翻訳品質とレイテンシが大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-04-23T23:03:58Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。