Fugu-MT 論文翻訳(概要): DocTr: Document Transformer for Structured Information Extraction in Documents

論文の概要: DocTr: Document Transformer for Structured Information Extraction in Documents

arxiv url: http://arxiv.org/abs/2307.07929v1
Date: Sun, 16 Jul 2023 02:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 17:00:31.631430
Title: DocTr: Document Transformer for Structured Information Extraction in Documents
Title（参考訳）: doctr: 文書における構造化情報抽出のための文書トランスフォーマー
Authors: Haofu Liao, Aruni RoyChowdhury, Weijian Li, Ankan Bansal, Yuting Zhang, Zhuowen Tu, Ravi Kumar Satzoda, R. Manmatha, Vijay Mahadevan
Abstract要約: 本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
参考スコア（独自算出の注目度）: 36.1145541816468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a new formulation for structured information extraction (SIE) from visually rich documents. It aims to address the limitations of existing IOB tagging or graph-based formulations, which are either overly reliant on the correct ordering of input text or struggle with decoding a complex graph. Instead, motivated by anchor-based object detectors in vision, we represent an entity as an anchor word and a bounding box, and represent entity linking as the association between anchor words. This is more robust to text ordering, and maintains a compact graph for entity linking. The formulation motivates us to introduce 1) a DOCument TRansformer (DocTr) that aims at detecting and associating entity bounding boxes in visually rich documents, and 2) a simple pre-training strategy that helps learn entity detection in the context of language. Evaluations on three SIE benchmarks show the effectiveness of the proposed formulation, and the overall approach outperforms existing solutions.
Abstract（参考訳）: 本稿では、視覚的にリッチな文書から構造化情報抽出(SIE)を新たに定義する。それは、入力テキストの正しい順序に依存するか、複雑なグラフのデコードに苦労する、既存のIOBタグやグラフベースの定式化の制限に対処することを目的としています。代わりに、視覚におけるアンカーベースのオブジェクト検出器に動機づけられ、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワード間の関連付けとして表現する。これはテキストの順序付けよりも堅牢であり、エンティティリンク用のコンパクトグラフを維持している。定式化は私達に導入を促す 1)視覚的に豊かな文書におけるエンティティ境界ボックスの検出及び関連を図るDOCument TRansformer(DocTr) 2) 言語コンテキストにおけるエンティティ検出の学習を支援する,シンプルな事前学習戦略。 3つのSIEベンチマークの評価は、提案した定式化の有効性を示し、全体的なアプローチは既存のソリューションよりも優れている。

関連論文リスト

DISRetrieval: Harnessing Discourse Structure for Long Document Retrieval [51.89673002051528]
DISRetrievalは、言語談話構造を利用して長い文書理解を強化する新しい階層的検索フレームワークである。本研究は,談話構造が文書の長さや問合せの種類によって検索効率を著しく向上することを確認する。
論文参考訳（メタデータ） (2025-05-26T14:45:12Z)
Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文参考訳（メタデータ） (2025-05-08T17:37:36Z)
Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文参考訳（メタデータ） (2025-04-08T15:22:08Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。 SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文参考訳（メタデータ） (2024-06-13T02:35:55Z)
A Semantic Mention Graph Augmented Model for Document-Level Event Argument Extraction [12.286432133599355]
Document-level Event Argument extract (DEAE)は、構造化されていないドキュメントから引数とその特定の役割を特定することを目的としている。 DEAEの先進的なアプローチは、事前訓練された言語モデル(PLM)を誘導するプロンプトベースの手法を用いて、入力文書から引数を抽出する。本稿では,この2つの問題に対処するために,グラフ拡張モデル (GAM) のセマンティック言及を提案する。
論文参考訳（メタデータ） (2024-03-12T08:58:07Z)
Document-level Relation Extraction with Cross-sentence Reasoning Graph [14.106582119686635]
関係抽出(RE)は、最近、文レベルから文書レベルに移行した。 GRaph情報集約・クロスセンス推論ネットワーク(GRACR)を用いた新しい文書レベルのREモデルを提案する。実験結果から,GRACRは文書レベルのREの2つの公開データセットにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2023-03-07T14:14:12Z)
Not Just Plain Text! Fuel Document-Level Relation Extraction with Explicit Syntax Refinement and Subsentence Modeling [3.9436257406798925]
expLicit syntAx Refinement and Subsentence mOdeliNg based framework (LARSON)を提案する。余分な構文情報を導入することで、LARSONは任意の粒度のサブ文をモデル化し、効果的なインストラクティブを表示できる。 3つのベンチマークデータセット(DocRED、CDR、GDA)の実験結果から、LARSONは既存の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2022-11-10T05:06:37Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。本稿では,SrucTexTという統合フレームワークを提案する。セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T02:57:07Z)
Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文参考訳（メタデータ） (2020-04-29T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。