論文の概要: ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts
- arxiv url: http://arxiv.org/abs/2603.09392v1
- Date: Tue, 10 Mar 2026 09:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.194527
- Title: ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts
- Title(参考訳): ICDAR 2025 複合レイアウトに向けたエンド・ツー・エンド文書画像機械翻訳コンペティション
- Authors: Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong,
- Abstract要約: 文書画像機械翻訳(DIMT)は、ある言語から別の言語への文書画像に埋め込まれたテキストの翻訳を試みる。
DIMT 2025 Challengeは、エンドツーエンドの文書画像翻訳の研究を推進している。
コンペティションには2つのトラック、OCRフリーとOCRベースがあり、それぞれ小さな(1Bパラメータ未満)用の2つのサブタスクと大きな(1Bパラメータ以上)モデルがある。
- 参考スコア(独自算出の注目度): 47.61983500021015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Image Machine Translation (DIMT) seeks to translate text embedded in document images from one language to another by jointly modeling both textual content and page layout, bridging optical character recognition (OCR) and natural language processing (NLP). The DIMT 2025 Challenge advances research on end-to-end document image translation, a rapidly evolving area within multimodal document understanding. The competition features two tracks, OCR-free and OCR-based, each with two subtasks for small (less than 1B parameters) and large (greater than 1B parameters) models. Participants submit a single unified DIMT system, with the option to incorporate provided OCR transcripts. Running from December 10, 2024 to April 20, 2025, the competition attracted 69 teams and 27 valid submissions in total. Track 1 had 34 teams and 13 valid submissions, while Track 2 had 35 teams and 14 valid submissions. In this report, we present the challenge motivation, dataset construction, task definitions, evaluation protocol, and a summary of results. Our analysis shows that large-model approaches establish a promising new paradigm for translating complex-layout document images and highlight substantial opportunities for future research.
- Abstract(参考訳): 文書画像機械翻訳(DIMT)は、テキストコンテンツとページレイアウトの両方を共同でモデル化し、光学文字認識(OCR)と自然言語処理(NLP)を併用することで、文書画像に埋め込まれたテキストをある言語から別の言語に翻訳しようとする。
DIMT 2025 Challengeは、マルチモーダル文書理解における急速に発展する領域であるエンドツーエンドの文書画像翻訳の研究を推進している。
コンペティションには2つのトラック、OCRフリーとOCRベースがあり、それぞれ小さな(1Bパラメータ未満)用の2つのサブタスクと大きな(1Bパラメータ以上)モデルがある。
参加者は、提供されたOCR転写を組み込むオプションとして、単一の統合DIMTシステムを提出する。
2024年12月10日から2025年4月20日まで、69チームが参加し、27チームが応募した。
トラック1には34のチームと13の応募があり、トラック2には35のチームと14の応募があった。
本稿では,課題のモチベーション,データセットの構築,タスク定義,評価プロトコル,結果の概要について述べる。
解析の結果,大規模モデルアプローチは,複雑な文書画像の翻訳に期待できる新しいパラダイムを確立し,将来的な研究の機会を浮き彫りにしている。
関連論文リスト
- DocPTBench: Benchmarking End-to-End Photographed Document Parsing and Translation [18.531174868051558]
DocPTBenchは、写真文書解析および翻訳用に特別に設計されたベンチマークである。
実験の結果,デジタル化文書から写真化文書への移行により,性能が著しく低下することが確認された。
この大きなパフォーマンスギャップは、現実世界の状況でキャプチャされた文書によって引き起こされるユニークな課題を浮き彫りにする。
論文 参考訳(メタデータ) (2025-11-23T13:02:11Z) - PRIM: Towards Practical In-Image Multilingual Machine Translation [48.357528732061105]
In-Image Machine Translation (IIMT)は、ある言語から別の言語へのテキストを含む画像を翻訳することを目的としている。
エンド・ツー・エンドIIMTの最近の研究は、単純な背景、単一のフォント、固定テキスト位置、バイリンガル翻訳を持つ合成データに頼っている。
本稿では,PRIMにおける実用条件の課題に対応するために,エンドツーエンドのVisTransモデルを提案する。
論文 参考訳(メタデータ) (2025-09-05T14:38:07Z) - NTIRE 2025 challenge on Text to Image Generation Model Quality Assessment [146.76913448156176]
本稿では,テキスト・トゥ・イメージ(T2I)生成モデルの品質評価におけるNTIRE 2025課題について報告する。
この課題の目的は、テキスト・ツー・画像生成モデルのきめ細かい品質評価に対処することである。
論文 参考訳(メタデータ) (2025-05-22T07:12:36Z) - DIMT25@ICDAR2025: HW-TSC's End-to-End Document Image Machine Translation System Leveraging Large Vision-Language Model [26.977174272835995]
本稿では,Huawei Translation Service Center (HW-TSC) が提案する「複雑なレイアウトのための文書画像機械翻訳」コンペティションの技術的解決について述べる。
本稿では,マルチタスク学習と知覚連鎖を組み合わせ,総合的なエンドツーエンド文書翻訳システムを開発するためのトレーニングフレームワークを提案する。
本ソリューションは,OCR ベースおよび OCR フリーな文書画像変換タスクを統一されたフレームワーク内で一意に処理する。
論文 参考訳(メタデータ) (2025-04-24T07:17:59Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。