Fugu-MT 論文翻訳(概要): GeoLayoutLM: Geometric Pre-training for Visual Information Extraction

論文の概要: GeoLayoutLM: Geometric Pre-training for Visual Information Extraction

arxiv url: http://arxiv.org/abs/2304.10759v1
Date: Fri, 21 Apr 2023 06:02:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 15:51:13.836542
Title: GeoLayoutLM: Geometric Pre-training for Visual Information Extraction
Title（参考訳）: GeoLayoutLM:ビジュアル情報抽出のための幾何学的事前学習
Authors: Chuwei Luo, Changxu Cheng, Qi Zheng, Cong Yao
Abstract要約: 視覚情報抽出はドキュメントインテリジェンスにおいて重要な役割を果たす。最近の文書の事前学習モデルは、特にセマンティックエンティティ認識において、VIEにおいて大きな進歩を遂げている。事前学習における幾何学的関係を理解するために,GeoLMというマルチモーダルフレームワークを提案する。 GeoLMは、SERタスクにおいて非常に競争力のあるスコアを獲得し、REの過去の最先端よりも大幅に優れています。
参考スコア（独自算出の注目度）: 15.048960637765228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual information extraction (VIE) plays an important role in Document Intelligence. Generally, it is divided into two tasks: semantic entity recognition (SER) and relation extraction (RE). Recently, pre-trained models for documents have achieved substantial progress in VIE, particularly in SER. However, most of the existing models learn the geometric representation in an implicit way, which has been found insufficient for the RE task since geometric information is especially crucial for RE. Moreover, we reveal another factor that limits the performance of RE lies in the objective gap between the pre-training phase and the fine-tuning phase for RE. To tackle these issues, we propose in this paper a multi-modal framework, named GeoLayoutLM, for VIE. GeoLayoutLM explicitly models the geometric relations in pre-training, which we call geometric pre-training. Geometric pre-training is achieved by three specially designed geometry-related pre-training tasks. Additionally, novel relation heads, which are pre-trained by the geometric pre-training tasks and fine-tuned for RE, are elaborately designed to enrich and enhance the feature representation. According to extensive experiments on standard VIE benchmarks, GeoLayoutLM achieves highly competitive scores in the SER task and significantly outperforms the previous state-of-the-arts for RE (\eg, the F1 score of RE on FUNSD is boosted from 80.35\% to 89.45\%). The code and models are publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayo utLM
Abstract（参考訳）: 視覚情報抽出(VIE)はドキュメントインテリジェンスにおいて重要な役割を果たす。一般に、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分けられる。近年、文書の事前学習モデルは、特にSERにおいて、VIEにおいてかなりの進歩を遂げている。しかし,既存のモデルでは幾何学的表現が暗黙的に学習されており,特にREにとって幾何学的情報が不可欠であることから,REタスクでは不十分であることが判明している。また、REの学習前フェーズとREの微調整フェーズとの客観的ギャップにREの性能を制限する別の要因を明らかにする。このような問題に対処するため,本稿ではGeoLayoutLMというマルチモーダルフレームワークをVIE向けに提案する。 geolayoutlm は事前学習における幾何学的関係を明示的にモデル化している。幾何学的事前訓練は、3つの特別に設計された幾何学的関連事前訓練タスクによって達成される。さらに、幾何学的事前学習タスクによって事前訓練され、REのために微調整された新しい関係ヘッドは、特徴表現の強化と強化を念頭に設計されている。標準VIEベンチマークの広範な実験によると、GeoLayoutLMはSERタスクにおいて非常に競争力のあるスコアを達成し、以前のREの最先端よりも大幅に向上している(FUNSD上のREのF1スコアは80.35\%から89.45\%に向上している)。コードとモデルはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayo utLMで公開されている。

関連論文リスト

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文参考訳（メタデータ） (2025-12-23T17:56:36Z)
GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。 GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。 GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文参考訳（メタデータ） (2025-11-19T17:45:02Z)
GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。 RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文参考訳（メタデータ） (2025-09-25T12:00:52Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
InfoNorm: Mutual Information Shaping of Normals for Sparse-View Reconstruction [15.900375207144759]
多視点画像からの3次元表面再構成はシーン理解とインタラクションに不可欠である。ニューラルレージアンス場(NeRF)や符号付き距離関数(SDF)といった近年の暗黙的な表面表現は、観測情報の欠如を解決するために様々な幾何学的先行法を用いている。本稿では,高度に相関したシーンポイントの表面正規化における相互情報を明確に促進することにより,幾何学的モデリングの正規化を提案する。
論文参考訳（メタデータ） (2024-07-17T15:46:25Z)
A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents [0.0]
ビジュアルリッチ文書(VRD)に適用された関係抽出(RE)において、現在の最先端結果に適合または優れるモデルを提案する。また、FUNSDを用いた広範囲なアブレーション研究を行い、特定の特徴とモデル化の選択がパフォーマンスに与える影響を強調した。
論文参考訳（メタデータ） (2024-04-16T18:50:57Z)
GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-03-18T17:50:41Z)
Continual Referring Expression Comprehension via Dual Modular Memorization [133.46886428655426]
Referring Expression (REC) は、自然言語で記述された対象のイメージ領域をローカライズすることを目的としている。既存のRECアルゴリズムは、モデルへのデータ供給のトレーニングを前もって行うと強く仮定する。本稿では、入ってくるタスクのストリーム上でモデルが学習するRECの新しい設定である連続参照表現(CREC)を提案する。学習済みの知識を忘れずに,スクラッチから繰り返し再学習することなく,逐次的タスクのモデルを継続的に改善するために,デュアルモジュール記憶法という効果的なベースライン手法を提案する。
論文参考訳（メタデータ） (2023-11-25T02:58:51Z)
Silver Syntax Pre-training for Cross-Domain Relation Extraction [20.603482820770356]
関係抽出(RE)は、特に現実的な領域外評価を考える場合、依然として困難な課題である。高品質な(手動で注釈付けされた)データを取得するのは非常に高価であり、新しいドメインごとに現実的に繰り返すことはできない。関連するタスクからのデータに対する中間的なトレーニングステップは、多くのNLPタスクで有用であることが示されているが、このセットアップには追加のアノテートデータが必要であるため、しばしば利用できない。本稿では,REのための中間的事前学習について検討する。構文構造と意味的REとの親和性を利用して,2つのエンティティ間の最も短い依存性パスにあることで,REと密接に関連する構文関係を同定する。
論文参考訳（メタデータ） (2023-05-18T14:49:19Z)
Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2022-02-22T04:46:10Z)
Lifelong Generative Modelling Using Dynamic Expansion Graph Model [15.350366047108103]
共同GR法とENA法を用いて,VAEの忘れ行動について検討した。動的拡張グラフモデル(DEGM)を提案する。
論文参考訳（メタデータ） (2021-12-15T17:35:27Z)
Locally Aware Piecewise Transformation Fields for 3D Human Mesh Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文参考訳（メタデータ） (2021-04-16T15:16:09Z)
KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文参考訳（メタデータ） (2020-10-05T19:59:05Z)
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文参考訳（メタデータ） (2020-05-22T21:34:34Z)
Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文参考訳（メタデータ） (2020-02-10T16:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。