論文の概要: M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation
- arxiv url: http://arxiv.org/abs/2406.08255v1
- Date: Wed, 12 Jun 2024 14:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:36:08.305718
- Title: M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation
- Title(参考訳): M3T:マルチモーダル文書レベル機械翻訳のためのベンチマークデータセット
- Authors: Benjamin Hsu, Xiaoyu Liu, Huayang Li, Yoshinari Fujinuma, Maria Nadejde, Xing Niu, Yair Kittenplon, Ron Litman, Raghavendra Pappagari,
- Abstract要約: 文書翻訳はニューラルマシン翻訳(NMT)システムにとって課題となる。
ほとんどの文書レベルのNMTシステムは、厳密にキュレートされた文レベルの並列データに依存している。
現実世界の文書は、これらの前提に反する複雑なテキストレイアウトを持つことが多い。
本稿では,半構造化文書を翻訳する包括的タスクにおいて,NMTシステムを評価するための新しいベンチマークデータセットであるM3Tを紹介する。
- 参考スコア(独自算出の注目度): 32.39711525205274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document translation poses a challenge for Neural Machine Translation (NMT) systems. Most document-level NMT systems rely on meticulously curated sentence-level parallel data, assuming flawless extraction of text from documents along with their precise reading order. These systems also tend to disregard additional visual cues such as the document layout, deeming it irrelevant. However, real-world documents often possess intricate text layouts that defy these assumptions. Extracting information from Optical Character Recognition (OCR) or heuristic rules can result in errors, and the layout (e.g., paragraphs, headers) may convey relationships between distant sections of text. This complexity is particularly evident in widely used PDF documents, which represent information visually. This paper addresses this gap by introducing M3T, a novel benchmark dataset tailored to evaluate NMT systems on the comprehensive task of translating semi-structured documents. This dataset aims to bridge the evaluation gap in document-level NMT systems, acknowledging the challenges posed by rich text layouts in real-world applications.
- Abstract(参考訳): 文書翻訳はニューラルマシン翻訳(NMT)システムにとって課題となる。
ほとんどの文書レベルのNMTシステムは、文書からのテキストの完全抽出と正確な読み出し順序を前提として、厳密にキュレートされた文レベルの並列データに依存している。
これらのシステムは、ドキュメントレイアウトのような追加の視覚的手がかりを無視し、無関係とみなす傾向がある。
しかし、現実世界の文書はしばしばこれらの前提に反する複雑なテキストレイアウトを持っている。
光文字認識(OCR)やヒューリスティックルールから情報を抽出するとエラーが発生し、レイアウト(例、段落、ヘッダ)はテキストの遠い部分間の関係を伝達する。
この複雑さは、視覚的に情報を表す広く使われているPDF文書で特に顕著である。
本稿では, 半構造化文書の包括的な翻訳作業において, NMTシステム評価に適した新しいベンチマークデータセットであるM3Tを導入することにより, このギャップを解消する。
このデータセットは、文書レベルのNMTシステムにおける評価ギャップを埋めることを目的としており、現実世界のアプリケーションでリッチテキストレイアウトがもたらす課題を認識している。
関連論文リスト
- The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Exploring Paracrawl for Document-level Neural Machine Translation [21.923881766940088]
文書レベルのニューラルマシン翻訳(NMT)は、多くのデータセット上で文レベルのNMTよりも優れています。
パラクロールからパラクロールのパラパラパラパラグラフのみを用いて訓練した文書レベルのNMTモデルを実文書の翻訳に利用できることを示す。
論文 参考訳(メタデータ) (2023-04-20T11:21:34Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Diving Deep into Context-Aware Neural Machine Translation [36.17847243492193]
本稿では,4つの領域における文書レベルのNMTモデルの性能を解析する。
ドキュメントレベルのNMTに最適なアプローチはひとつもありません。
論文 参考訳(メタデータ) (2020-10-19T13:23:12Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - Kleister: A novel task for Information Extraction involving Long
Documents with Complex Layout [5.8530995077744645]
2つの新しいデータセットを備えた新しいタスク(Kleisterという名前)を導入します。
NLPシステムは、長い形式文書において、様々な種類のエンティティについて最も重要な情報を見つけなければならない。
異なる名前付きエンティティ認識アーキテクチャを持つテキストのみのベースラインとしてパイプライン法を提案する。
論文 参考訳(メタデータ) (2020-03-04T22:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。