論文の概要: DocAtlas: Multilingual Document Understanding Across 80+ Languages
- arxiv url: http://arxiv.org/abs/2605.12623v2
- Date: Thu, 21 May 2026 05:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.400124
- Title: DocAtlas: Multilingual Document Understanding Across 80+ Languages
- Title(参考訳): DocAtlas: 80以上の言語にまたがる多言語ドキュメント
- Authors: Ahmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan,
- Abstract要約: 本稿では,82言語を対象とした高忠実度OCRデータセットとベンチマークを構築するフレームワークDocAtlasを紹介する。
我々のデュアルパイプライン、ネイティブDOCX文書の微分レンダリング、左右スクリプトの合成ベース生成は正確な構造アノテーションを生成する。
- 参考スコア(独自算出の注目度): 58.715440331861295
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual document understanding remains limited for low-resource languages due to scarce training data and model-based annotation pipelines that perpetuate existing biases. We introduce DocAtlas, a framework that constructs high-fidelity OCR datasets and benchmarks covering 82 languages and 9 evaluation tasks. Our dual pipelines, differential rendering of native DOCX documents and synthetic LaTeX-based generation for right-to-left scripts produce precise structural annotations in a unified DocTag format encoding layout, text, and component types, without learned models for core annotation. Evaluating 16 state-of-the-art models reveals persistent gaps in low-resource scripts. We show that Direct Preference Optimization (DPO) using rendering-derived ground truth as positive signal achieves stable multilingual adaptation, improving both in-domain (+1.9%) and out-of-domain (+1.8%) accuracy without measurable base-language degradation, where supervised fine-tuning degrades out-of-domain performance by up to 21%. Our best variant, DocAtlas-DeepSeek, improves +1.7% over the strongest baseline. Code is available at https://github.com/ahmedheakl/DocAtlas .
- Abstract(参考訳): マルチリンガル文書理解は、トレーニングデータの不足と既存のバイアスを持続するモデルベースのアノテーションパイプラインのため、低リソース言語に限られている。
我々は,82言語と9つの評価タスクをカバーする高忠実度OCRデータセットとベンチマークを構築するフレームワークDocAtlasを紹介する。
我々のデュアルパイプライン、ネイティブDOCX文書の微分レンダリング、右から左へのスクリプトのためのLaTeXベースの合成生成は、コアアノテーションの学習モデルなしで、レイアウト、テキスト、コンポーネントタイプを符号化したDocTagフォーマットで正確な構造アノテーションを生成する。
16の最先端モデルを評価することで、低リソーススクリプトの持続的なギャップが明らかになる。
提案手法では,レンダリングから導かれる接地真理を正の信号として用いた直接選好最適化(DPO)により,ドメイン内(+1.9%)とドメイン外(+1.8%)の精度を測定不能に向上し,ドメイン外性能を最大21%向上させることを示した。
最も優れたバージョンであるDocAtlas-DeepSeekは、最強のベースラインよりも+1.7%改善しています。
コードはhttps://github.com/ahmedheakl/DocAtlasで入手できる。
関連論文リスト
- BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation [9.979324579114392]
既存の文書翻訳パイプラインは言語処理とレイアウト保存の緊張に直面している。
本稿では、レイアウト保存PDF翻訳のためのIRベースのフレームワークであるBabelDOCを紹介する。
BabelDOCは、セマンティックコンテンツから視覚的なレイアウトメタデータを分離し、文書レベルの翻訳操作を可能にする。
論文 参考訳(メタデータ) (2026-05-11T16:56:44Z) - Bilingual Text-to-Motion Generation: A New Benchmark and Baselines [52.71312720094036]
LLMアノテーションと厳密な手動修正によって構築されたバイリンガルテキスト・モーション・ベンチマークであるBiHumanML3Dを紹介する。
また,CLA(Cross-Lingual Alignment)を用いたバイリンガルモーション拡散合成(BiMD)を提案する。
CLA を用いた BiMD は 0.045 対 0.169 対 R@3 対 80.8% の FID を達成し、単言語拡散モデルと BiHumanML3D の翻訳ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-26T08:48:27Z) - Diffusion-Pretrained Dense and Contextual Embeddings [3.1271035100823643]
plx-embedは多言語埋め込みモデルのファミリーであり、Webスケール検索のために拡散予測言語モデルバックボーンに多段階のコントラスト学習を利用する。
標準検索用 pplx-embed-v1 とコンテキスト埋め込み用 pplx-embed-context-v1 の2つのモデルタイプをリリースする。
論文 参考訳(メタデータ) (2026-02-11T18:59:08Z) - LEMUR: A Corpus for Robust Fine-Tuning of Multilingual Law Embedding Models for Retrieval [18.46710400838861]
大規模言語モデル(LLM)は、法律情報へのアクセスにますます利用されている。
しかし、その多言語法的設定への展開は、信頼性の低い検索と、ドメイン適応型、オープンな埋め込みモデルの欠如によって制限されている。
LEMURは、EUの環境法律の大規模多言語コーパスであり、24,953のEUR-Lex PDF文書から25の言語をカバーする。
論文 参考訳(メタデータ) (2026-02-10T09:20:24Z) - DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection [71.97939405401961]
我々は,Common Crawlデータと既存の多言語ソースから構築された大規模多言語コーパスであるDCAD-2000を紹介する。
DCAD-2000は2,282言語、46.72TBのテキスト、および8.63億のドキュメントをカバーし、155のハイソース言語と159のスクリプトをカバーしている。
DCAD-2000上でのLCMの微調整により,データ品質,クリーニングパイプラインの堅牢性,下流性能の顕著な改善が示された。
論文 参考訳(メタデータ) (2025-02-17T08:28:29Z) - Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction [18.926993352330797]
本稿では,低リソース言語データの英語翻訳をモデルに微調整したフレームワークであるTransFusionを提案する。
GoLLIE-TFは、IEタスクのための言語間命令チューニング LLM であり、ハイソース言語と低リソース言語のパフォーマンスギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。