論文の概要: BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation
- arxiv url: http://arxiv.org/abs/2605.10845v1
- Date: Mon, 11 May 2026 16:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.012948
- Title: BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation
- Title(参考訳): BabelDOC: 中間表現によるPDF翻訳の改善
- Authors: Qi Yang, Xiangyao Ma, Xiao Wang, Hao Wang, Rui Wang,
- Abstract要約: 既存の文書翻訳パイプラインは言語処理とレイアウト保存の緊張に直面している。
本稿では、レイアウト保存PDF翻訳のためのIRベースのフレームワークであるBabelDOCを紹介する。
BabelDOCは、セマンティックコンテンツから視覚的なレイアウトメタデータを分離し、文書レベルの翻訳操作を可能にする。
- 参考スコア(独自算出の注目度): 9.979324579114392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As global cross-lingual communication intensifies, language barriers in visually rich documents such as PDFs remain a practical bottleneck. Existing document translation pipelines face a tension between linguistic processing and layout preservation: text-oriented Computer-Assisted Translation (CAT) systems often discard structural metadata, while document parsers focus on extraction and do not support faithful re-rendering after translation. We introduce BabelDOC, an Intermediate Representation (IR)-based framework for layout-preserving PDF translation. BabelDOC decouples visual layout metadata from semantic content, enabling document-level translation operations such as terminology extraction, cross-page context handling, glossary-constrained generation, and formula placeholdering. The translated content is then re-anchored to the original layout through an adaptive typesetting engine. Experiments on a curated 200-page benchmark, together with human evaluation and multimodal LLM-as-a-judge evaluation, show that BabelDOC improves layout fidelity, visual aesthetics, and terminology consistency over representative baselines, while maintaining competitive translation precision. The open-source toolkit and its interactive downstream applications are publicly available and have attracted over 8.4K GitHub stars and 17 contributors at the time of writing. A demonstration video is also available.
- Abstract(参考訳): グローバルな言語間コミュニケーションが強化されるにつれて、PDFのような視覚的にリッチなドキュメントにおける言語障壁は、いまだに現実的なボトルネックとなっている。
テキスト指向のコンピュータ支援翻訳(CAT)システムは、しばしば構造メタデータを破棄するが、文書パーザは、抽出に集中し、翻訳後の忠実な再レンダリングをサポートしない。
本稿では、レイアウト保存PDF翻訳のためのIRベースのフレームワークであるBabelDOCを紹介する。
BabelDOCは、セマンティックコンテンツから視覚的なレイアウトメタデータを分離し、用語抽出、クロスページコンテキストハンドリング、用語制約付き生成、公式プレースホルダーなどの文書レベルの変換操作を可能にする。
翻訳されたコンテンツは、適応型付けエンジンによって元のレイアウトに再編集される。
評価とマルチモーダルLCM-as-a-judge評価を併用した200ページのキュレートベンチマーク実験により,BabelDOCは,設計精度,視覚的美学,用語的整合性を代表ベースラインよりも向上し,競争力のある翻訳精度を維持した。
オープンソースツールキットとそのインタラクティブなダウンストリームアプリケーションは公開されており、執筆時点で8,4K以上のGitHubスターと17人のコントリビュータが参加している。
デモビデオも公開されている。
関連論文リスト
- GRAFT: A Graph-based Flow-aware Agentic Framework for Document-level Machine Translation [29.444855969559153]
文書翻訳のためのGRAFT(Graph Augmented Agentic Framework for Document Level Translation)を提案する。
GRAFTは、セグメンテーション、DAGに基づく依存性モデリング、凝集性フレームワークへの談話対応翻訳を統合している。
8つの翻訳方向と6つの多様なドメインにわたる実験により、GRAFTはDocMTシステムよりも大きな性能向上を達成できることが示された。
論文 参考訳(メタデータ) (2025-07-04T05:45:55Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - Multilingual Contextualization of Large Language Models for Document-Level Machine Translation [28.08957305340726]
大規模言語モデル (LLM) は文レベルの機械翻訳において高い性能を示している。
高品質な文書レベルのデータを対象とした微調整により,LLMに基づく長期文書翻訳を改善する手法を提案する。
提案手法は,文書から文書への直接翻訳やチャンクレベルの翻訳など,複数の翻訳パラダイムをサポートする。
論文 参考訳(メタデータ) (2025-04-16T14:52:22Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。