論文の概要: GraphRevisedIE: Multimodal Information Extraction with Graph-Revised Network
- arxiv url: http://arxiv.org/abs/2410.01160v1
- Date: Wed, 2 Oct 2024 01:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:50:44.205563
- Title: GraphRevisedIE: Multimodal Information Extraction with Graph-Revised Network
- Title(参考訳): GraphRevisedIE: Graph-Revised Networkによるマルチモーダル情報抽出
- Authors: Panfeng Cao, Jian Wu,
- Abstract要約: 視覚的にリッチなドキュメント(VRD)から重要な情報を抽出することは、文書インテリジェンスにおいて難しい課題である。
本稿では,VRDからテキスト,視覚,レイアウトなどのマルチモーダル機能を効果的に組み込む軽量モデルGraphIEを提案する。
複数の実世界のデータセットに対する大規模な実験は、GraphIERevisedsが様々なレイアウトのドキュメントに一般化し、以前のKIEメソッドと同等またはより良いパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 3.9472311338123287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key information extraction (KIE) from visually rich documents (VRD) has been a challenging task in document intelligence because of not only the complicated and diverse layouts of VRD that make the model hard to generalize but also the lack of methods to exploit the multimodal features in VRD. In this paper, we propose a light-weight model named GraphRevisedIE that effectively embeds multimodal features such as textual, visual, and layout features from VRD and leverages graph revision and graph convolution to enrich the multimodal embedding with global context. Extensive experiments on multiple real-world datasets show that GraphRevisedIE generalizes to documents of varied layouts and achieves comparable or better performance compared to previous KIE methods. We also publish a business license dataset that contains both real-life and synthesized documents to facilitate research of document KIE.
- Abstract(参考訳): 視覚的にリッチなドキュメント(VRD)からキー情報抽出(KIE)は、VRDの複雑な多彩なレイアウトだけでなく、VRDのマルチモーダル機能を利用する方法の欠如により、ドキュメントインテリジェンスにおいて難しい課題となっている。
本稿では,VRDからテキスト,視覚,レイアウトなどのマルチモーダルな特徴を効果的に埋め込み,グラフのリビジョンとグラフの畳み込みを活用し,グローバルなコンテキストによるマルチモーダルな埋め込みを充実させる,GraphRevisedIEという軽量モデルを提案する。
複数の実世界のデータセットに対する大規模な実験は、GraphRevisedIEが様々なレイアウトのドキュメントに一般化し、以前のKIEメソッドと同等またはより良いパフォーマンスを達成することを示している。
また、実物と合成文書の両方を含むビジネスライセンスデータセットを公開し、文書KIEの研究を容易にする。
関連論文リスト
- Multimodal Graph Benchmark [36.75510196380185]
マルチモーダルグラフベンチマーク(Multimodal Graph Benchmark、MM-GRAPH)は、テキスト情報と視覚情報の両方を組み込んだ総合的なマルチモーダルグラフベンチマークである。
MM-GRAPHは5つのグラフ学習データセットから構成されており、異なる学習タスクに適している。
MM-GRAPHは、マルチモーダルグラフ学習の研究を促進し、より高度で堅牢なグラフ学習アルゴリズムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-24T05:14:09Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる
既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。
本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Document Understanding Dataset and Evaluation (DUDE) [29.78902147806488]
文書理解データセットと評価(DUDE)は、視覚に富む文書(VRD)の理解において、研究の進展が止まったことを改善しようとしている。
我々は,様々な起源と日付の多産業,多ドメイン,多ページVRDに基づく,質問の種類,回答,文書レイアウトに関する新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-15T08:54:32Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Multi-modal Summarization for Video-containing Documents [23.750585762568665]
本稿では,文書とその関連ビデオから要約する,新しいマルチモーダル要約タスクを提案する。
総合的な実験により,提案手法は複数モーダル要約に有用であり,既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-17T02:13:14Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - PICK: Processing Key Information Extraction from Documents using
Improved Graph Learning-Convolutional Networks [5.210482046387142]
文書から重要な情報抽出は依然として課題である。
我々は,KIEの複雑なドキュメントレイアウトを扱う上で,効果的かつ堅牢なフレームワークであるPICKを紹介する。
提案手法は, 基準線法を有意差で上回っている。
論文 参考訳(メタデータ) (2020-04-16T05:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。