論文の概要: Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild
- arxiv url: http://arxiv.org/abs/2303.13095v2
- Date: Wed, 29 Mar 2023 03:49:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 17:30:40.363214
- Title: Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild
- Title(参考訳): 野生における視覚情報抽出のための意味ポイントとしての実体のモデリング
- Authors: Zhibo Yang, Rujiao Long, Pengfei Wang, Sibo Song, Humen Zhong, Wenqing
Cheng, Xiang Bai, Cong Yao
- Abstract要約: 文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 55.91783742370978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Visual Information Extraction (VIE) has been becoming increasingly
important in both the academia and industry, due to the wide range of
real-world applications. Previously, numerous works have been proposed to
tackle this problem. However, the benchmarks used to assess these methods are
relatively plain, i.e., scenarios with real-world complexity are not fully
represented in these benchmarks. As the first contribution of this work, we
curate and release a new dataset for VIE, in which the document images are much
more challenging in that they are taken from real applications, and
difficulties such as blur, partial occlusion, and printing shift are quite
common. All these factors may lead to failures in information extraction.
Therefore, as the second contribution, we explore an alternative approach to
precisely and robustly extract key information from document images under such
tough conditions. Specifically, in contrast to previous methods, which usually
either incorporate visual information into a multi-modal architecture or train
text spotting and information extraction in an end-to-end fashion, we
explicitly model entities as semantic points, i.e., center points of entities
are enriched with semantic information describing the attributes and
relationships of different entities, which could largely benefit entity
labeling and linking. Extensive experiments on standard benchmarks in this
field as well as the proposed dataset demonstrate that the proposed method can
achieve significantly enhanced performance on entity labeling and linking,
compared with previous state-of-the-art models. Dataset is available at
https://www.modelscope.cn/datasets/damo/SIBR/summary.
- Abstract(参考訳): 近年、視覚情報抽出(vie)は、現実世界の幅広いアプリケーションによって、学界と産業の両方でますます重要になっている。
これまで、この問題に取り組むために多くの研究が提案されてきた。
しかし、これらの手法を評価するために使われるベンチマークは比較的単純であり、現実の複雑さを持つシナリオはこれらのベンチマークで完全には表現されない。
この研究の最初の貢献として、我々はVIEの新しいデータセットをキュレートしてリリースし、文書画像は実際のアプリケーションから取り出され、ぼやけや部分閉塞、印刷のシフトといった困難がとても多いという点で、より困難である。
これらの要因は情報抽出の失敗につながる可能性がある。
そこで,第2のコントリビューションとして,このような厳しい条件下で文書画像からキー情報を正確かつ堅牢に抽出する手法を提案する。
具体的には、通常、視覚情報をマルチモーダルアーキテクチャに組み込むか、テキストスポッティングとエンドツーエンドの方法で情報抽出を訓練する以前の方法とは対照的に、エンティティの中心点は、エンティティのラベリングとリンクに大いに役立つ、異なるエンティティの属性と関係を記述したセマンティック情報によって、セマンティックポイントとして明示的にモデル化します。
この分野での標準ベンチマークと提案したデータセットの広範な実験により,提案手法は従来の最先端モデルと比較して,エンティティラベリングおよびリンクの性能を大幅に向上できることを示した。
Datasetはhttps://www.modelscope.cn/datasets/damo/SIBR/summaryで入手できる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Leveraging Contextual Information for Effective Entity Salience Detection [21.30389576465761]
クロスエンコーダアーキテクチャを用いた中規模言語モデルの微調整により,機能工学的アプローチよりも優れた性能が得られることを示す。
また、命令調整言語モデルのゼロショットプロンプトは、タスクの特異性と複雑さを示す劣った結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T19:04:40Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Effective Few-Shot Named Entity Linking by Meta-Learning [34.70028855572534]
本稿では,非自明な合成エンティティ-メント対を生成するための新しい弱監督戦略を提案する。
また,各合成実体対に異なる重みを割り当てるメタ学習機構を設計する。
実世界のデータセットの実験により、提案手法は最先端の少数ショットエンティティリンクモデルを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2022-07-12T03:23:02Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。