論文の概要: Rethinking the Evaluation of Pre-trained Text-and-Layout Models from an
Entity-Centric Perspective
- arxiv url: http://arxiv.org/abs/2402.02379v1
- Date: Sun, 4 Feb 2024 07:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:00:17.102809
- Title: Rethinking the Evaluation of Pre-trained Text-and-Layout Models from an
Entity-Centric Perspective
- Title(参考訳): エンティティ・センターの視点からの事前学習型テキスト・レイアウトモデルの評価再考
- Authors: Chong Zhang, Yixi Zhao, Chenshu Yuan, Yi Tu, Ya Guo, Qi Zhang
- Abstract要約: EC-FUNSDは、視覚的にリッチなドキュメント上での意味的エンティティ認識とエンティティリンクを評価するために設計されたエンティティ中心のベックマークである。
このデータセットには、ドキュメントレイアウトのさまざまなフォーマットと、セマンティック駆動エンティティとその関連性のアノテーションが含まれている。
実験結果から,最新のPTLMは,データセットバイアスを除去すると性能が急激に低下するため,ベンチマークに過度に適合する傾向を示した。
- 参考スコア(独自算出の注目度): 15.222536348615087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently developed pre-trained text-and-layout models (PTLMs) have shown
remarkable success in multiple information extraction tasks on visually-rich
documents. However, the prevailing evaluation pipeline may not be sufficiently
robust for assessing the information extraction ability of PTLMs, due to
inadequate annotations within the benchmarks. Therefore, we claim the necessary
standards for an ideal benchmark to evaluate the information extraction ability
of PTLMs. We then introduce EC-FUNSD, an entity-centric benckmark designed for
the evaluation of semantic entity recognition and entity linking on
visually-rich documents. This dataset contains diverse formats of document
layouts and annotations of semantic-driven entities and their relations.
Moreover, this dataset disentangles the falsely coupled annotation of segment
and entity that arises from the block-level annotation of FUNSD. Experiment
results demonstrate that state-of-the-art PTLMs exhibit overfitting tendencies
on the prevailing benchmarks, as their performance sharply decrease when the
dataset bias is removed.
- Abstract(参考訳): 最近開発されたPTLM(Pre-trained text-and-layout model)は、視覚的にリッチな文書における複数の情報抽出タスクにおいて顕著な成功を収めている。
しかし, 評価パイプラインは, PTLMの情報抽出能力を評価する上では, ベンチマーク内のアノテーションが不十分であるため, 十分な堅牢性は得られない。
そこで我々は,PTLMの情報抽出能力を評価するために,理想的なベンチマークに必要な基準を主張する。
次に,EC-FUNSDを紹介した。EC-FUNSDは,視覚的にリッチなドキュメント上でのセマンティックエンティティ認識とエンティティリンクの評価を目的とした,エンティティ中心のベックマークである。
このデータセットには、ドキュメントレイアウトの多様なフォーマットと、セマンティック駆動エンティティとその関係のアノテーションが含まれている。
さらに、このデータセットは、funsdのブロックレベルのアノテーションから生じるセグメンテーションとエンティティの誤った結合アノテーションを分離する。
実験結果から,最新のPTLMは,データセットバイアスを除去すると性能が急激に低下するため,ベンチマークに適合する傾向を示した。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Analysis of Multidomain Abstractive Summarization Using Salience
Allocation [2.6880540371111445]
季節は、塩分割り当て技術を活用して要約を強化するために設計されたモデルである。
本稿では、ROUGE、METEOR、BERTScore、MoverScoreなどの様々な評価指標を用いて、抽象的な要約を生成するために微調整されたモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-02-19T08:52:12Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Entity-level Factual Consistency of Abstractive Text Summarization [26.19686599842915]
抽象要約の重要な課題は、生成した要約の原文書に対する事実的一貫性を保証することである。
生成した要約の実体レベルの事実整合性を定量化するための新しいメトリクスセットを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。