論文の概要: ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training
- arxiv url: http://arxiv.org/abs/2410.10471v2
- Date: Wed, 16 Oct 2024 02:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:24:58.636718
- Title: ReLayout: Towards Real-World Document Understanding via Layout-enhanced Pre-training
- Title(参考訳): ReLayout: レイアウト強化事前トレーニングによる実世界のドキュメント理解を目指して
- Authors: Zhouqiang Jiang, Bowen Wang, Junhao Chen, Yuta Nakashima,
- Abstract要約: 我々は、現在のVrDUアプローチは、OCRツールがそのようなグループ化を自動的に識別できないため、非現実的であると主張している。
そこで我々は,現実の視覚に富んだ文書理解(ReVrDU)という,VrDUタスクの新たな変種を導入する。
また,ReVrDUシナリオに準拠する新しい手法Reを提案し,単語をアレンジすることでセマンティックグルーピングを捉えることを学習する。
- 参考スコア(独自算出の注目度): 17.736962215696366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches for visually-rich document understanding (VrDU) uses manually annotated semantic groups, where a semantic group encompasses all semantically relevant but not obviously grouped words. As OCR tools are unable to automatically identify such grouping, we argue that current VrDU approaches are unrealistic. We thus introduce a new variant of the VrDU task, real-world visually-rich document understanding (ReVrDU), that does not allow for using manually annotated semantic groups. We also propose a new method, ReLayout, compliant with the ReVrDU scenario, which learns to capture semantic grouping through arranging words and bringing the representations of words that belong to the potential same semantic group closer together. Our experimental results demonstrate the performance of existing methods is deteriorated with the ReVrDU task, while ReLayout shows superiour performance.
- Abstract(参考訳): 視覚的にリッチな文書理解(VrDU)に対する近年のアプローチでは、意味群は意味的に関連があるが明らかにグループ化されていないすべての単語を包含する、手動の注釈付きセマンティックグループを使用している。
OCRツールはそのようなグルーピングを自動的に識別できないため、現在のVrDUアプローチは非現実的であると論じる。
そこで本研究では,手動で注釈付きセマンティックグループを使用できない実世界のビジュアルリッチドキュメント理解(ReVrDU)という,VrDUタスクの新たな変種を導入する。
また、ReVrDUシナリオに準拠したReLayoutという新しい手法を提案する。これは、単語をアレンジすることでセマンティックグルーピングを捕捉し、潜在的に同一のセマンティックグループに属する単語の表現を密に結合する。
実験の結果,ReVrDUタスクでは既存手法の性能が劣化し,ReLayoutでは超低性能を示した。
関連論文リスト
- Visual-Semantic Decomposition and Partial Alignment for Document-based Zero-Shot Learning [14.77066147494556]
本稿では,文書や画像から多視点セマンティック概念を抽出し,概念全体ではなくマッチングを整合させる新しいネットワークを提案する。
我々は、文書ベースのゼロショット学習のための3つの標準ベンチマークにおいて、2つの文書ソースにおける最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-07-22T13:15:04Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - A General Contextualized Rewriting Framework for Text Summarization [15.311467109946571]
抽出文は比較的焦点が当てられているが、背景知識や談話の文脈が失われる可能性がある。
コンテントベースのアドレッシングによって抽出文を識別し、グループタグアライメントを施したSeq2seqとしてコンテクスト化された書き直しを形式化する。
その結果,本手法は強化学習を必要とせず,非コンテクスチュアライズされた書き換えシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-13T03:55:57Z) - GroupLink: An End-to-end Multitask Method for Word Grouping and Relation
Extraction in Form Understanding [25.71040852477277]
単語グループ化と関係抽出を組み合わせたマルチタスク学習によるエンドツーエンドモデルを構築し,各タスクの性能向上を図る。
提案手法を実世界の完全注釈付きノイズスキャンベンチマークであるFUNSDで検証する。
論文 参考訳(メタデータ) (2021-05-10T20:15:06Z) - Contextualized Rewriting for Text Summarization [10.666547385992935]
グループアライメントを伴うSeq2seq問題として書き換える。
その結果,本手法は非テキスト化書き換えシステムよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2021-01-31T05:35:57Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。