論文の概要: GeoLayoutLM: Geometric Pre-training for Visual Information Extraction
- arxiv url: http://arxiv.org/abs/2304.10759v1
- Date: Fri, 21 Apr 2023 06:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:51:13.836542
- Title: GeoLayoutLM: Geometric Pre-training for Visual Information Extraction
- Title(参考訳): GeoLayoutLM:ビジュアル情報抽出のための幾何学的事前学習
- Authors: Chuwei Luo, Changxu Cheng, Qi Zheng, Cong Yao
- Abstract要約: 視覚情報抽出はドキュメントインテリジェンスにおいて重要な役割を果たす。
最近の文書の事前学習モデルは、特にセマンティックエンティティ認識において、VIEにおいて大きな進歩を遂げている。
事前学習における幾何学的関係を理解するために,GeoLMというマルチモーダルフレームワークを提案する。
GeoLMは、SERタスクにおいて非常に競争力のあるスコアを獲得し、REの過去の最先端よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 15.048960637765228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual information extraction (VIE) plays an important role in Document
Intelligence. Generally, it is divided into two tasks: semantic entity
recognition (SER) and relation extraction (RE). Recently, pre-trained models
for documents have achieved substantial progress in VIE, particularly in SER.
However, most of the existing models learn the geometric representation in an
implicit way, which has been found insufficient for the RE task since geometric
information is especially crucial for RE. Moreover, we reveal another factor
that limits the performance of RE lies in the objective gap between the
pre-training phase and the fine-tuning phase for RE. To tackle these issues, we
propose in this paper a multi-modal framework, named GeoLayoutLM, for VIE.
GeoLayoutLM explicitly models the geometric relations in pre-training, which we
call geometric pre-training. Geometric pre-training is achieved by three
specially designed geometry-related pre-training tasks. Additionally, novel
relation heads, which are pre-trained by the geometric pre-training tasks and
fine-tuned for RE, are elaborately designed to enrich and enhance the feature
representation. According to extensive experiments on standard VIE benchmarks,
GeoLayoutLM achieves highly competitive scores in the SER task and
significantly outperforms the previous state-of-the-arts for RE (\eg, the F1
score of RE on FUNSD is boosted from 80.35\% to 89.45\%). The code and models
are publicly available at
https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayo utLM
- Abstract(参考訳): 視覚情報抽出(VIE)はドキュメントインテリジェンスにおいて重要な役割を果たす。
一般に、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分けられる。
近年、文書の事前学習モデルは、特にSERにおいて、VIEにおいてかなりの進歩を遂げている。
しかし,既存のモデルでは幾何学的表現が暗黙的に学習されており,特にREにとって幾何学的情報が不可欠であることから,REタスクでは不十分であることが判明している。
また、REの学習前フェーズとREの微調整フェーズとの客観的ギャップにREの性能を制限する別の要因を明らかにする。
このような問題に対処するため,本稿ではGeoLayoutLMというマルチモーダルフレームワークをVIE向けに提案する。
geolayoutlm は事前学習における幾何学的関係を明示的にモデル化している。
幾何学的事前訓練は、3つの特別に設計された幾何学的関連事前訓練タスクによって達成される。
さらに、幾何学的事前学習タスクによって事前訓練され、REのために微調整された新しい関係ヘッドは、特徴表現の強化と強化を念頭に設計されている。
標準VIEベンチマークの広範な実験によると、GeoLayoutLMはSERタスクにおいて非常に競争力のあるスコアを達成し、以前のREの最先端よりも大幅に向上している(FUNSD上のREのF1スコアは80.35\%から89.45\%に向上している)。
コードとモデルはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayo utLMで公開されている。
関連論文リスト
- Continual Referring Expression Comprehension via Dual Modular
Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。
既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。
本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。
学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:58:51Z) - RGM: A Robust Generalist Matching Model [53.223624323416914]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - GeoDTR+: Toward generic cross-view geolocalization via geometric
disentanglement [20.346145927174373]
Cross-View Geo-Localization (CVGL) は、データベース内のジオタグ付き空中画像とマッチングすることで、地上画像の位置を推定する。
近年のCVGLベンチマークは顕著な進歩を遂げている。
既存手法はいまだにクロスエリア評価におけるパフォーマンスの低下に悩まされている。
視覚的特徴の幾何学的レイアウトを抽出する能力の欠如と,低レベルの細部への過度な適合が原因と考えられる。
論文 参考訳(メタデータ) (2023-08-18T15:32:01Z) - Silver Syntax Pre-training for Cross-Domain Relation Extraction [20.603482820770356]
関係抽出(RE)は、特に現実的な領域外評価を考える場合、依然として困難な課題である。
高品質な(手動で注釈付けされた)データを取得するのは非常に高価であり、新しいドメインごとに現実的に繰り返すことはできない。
関連するタスクからのデータに対する中間的なトレーニングステップは、多くのNLPタスクで有用であることが示されているが、このセットアップには追加のアノテートデータが必要であるため、しばしば利用できない。
本稿では,REのための中間的事前学習について検討する。構文構造と意味的REとの親和性を利用して,2つのエンティティ間の最も短い依存性パスにあることで,REと密接に関連する構文関係を同定する。
論文 参考訳(メタデータ) (2023-05-18T14:49:19Z) - A Generative Model for Relation Extraction and Classification [23.1277041729626]
関係抽出・分類のための新しい生成モデル(GREC)を提案する。
本稿では、ソースおよびターゲットシーケンスの様々なエンコーディング表現について検討し、3つのベンチマークREデータセット上でGRECが最先端のパフォーマンスを達成できる効果的なスキームを設計する。
我々のアプローチは1つのパスで文からすべての関係三重項を抽出するために拡張することができる。
論文 参考訳(メタデータ) (2022-02-26T21:17:18Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z) - Lifelong Generative Modelling Using Dynamic Expansion Graph Model [15.350366047108103]
共同GR法とENA法を用いて,VAEの忘れ行動について検討した。
動的拡張グラフモデル(DEGM)を提案する。
論文 参考訳(メタデータ) (2021-12-15T17:35:27Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。