Fugu-MT 論文翻訳(概要): Unveiling the Deficiencies of Pre-trained Text-and-Layout Models in Real-world Visually-rich Document Information Extraction

論文の概要: Unveiling the Deficiencies of Pre-trained Text-and-Layout Models in Real-world Visually-rich Document Information Extraction

arxiv url: http://arxiv.org/abs/2402.02379v2
Date: Mon, 14 Apr 2025 08:30:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-26 07:34:09.357415
Title: Unveiling the Deficiencies of Pre-trained Text-and-Layout Models in Real-world Visually-rich Document Information Extraction
Title（参考訳）: 実世界の視覚豊かな文書情報抽出における事前学習型テキスト・レイアウトモデルの欠陥の解消
Authors: Chong Zhang, Yixi Zhao, Yulu Xie, Chenshu Yuan, Yi Tu, Ya Guo, Mingxu Chai, Ziyu Shen, Yue Zhang, Qi Zhang,
Abstract要約: 視覚に富んだ文書から情報抽出をベンチマークするためのエンティティ中心のデータセットであるEC-FUNSDを紹介する。 PTLMの絶対性能, 一般化, 堅牢性, 公正性など, 複数の側面から実世界の情報抽出能力を評価する。
参考スコア（独自算出の注目度）: 19.083538884467917
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently developed pre-trained text-and-layout models (PTLMs) have shown remarkable success in multiple information extraction tasks on visually-rich documents (VrDs). However, despite achieving extremely high performance on benchmarks, their real-world performance falls short of expectations. Owing to this issue, we investigate the prevailing evaluation pipeline to reveal that: (1) The inadequate annotations within benchmark datasets introduce spurious correlations between task inputs and labels, which would lead to overly-optimistic estimation of model performance. (2) The evaluation solely relies on the performance on benchmarks and is insufficient to comprehensively explore the capabilities of methods in real-world scenarios. These problems impede the prevailing evaluation pipeline from reflecting the real-world performance of methods, misleading the design choices of method optimization. In this work, we introduce EC-FUNSD, an entity-centric dataset crafted for benchmarking information extraction from visually-rich documents. This dataset contains diverse layouts and high-quality annotations. Additionally, this dataset disentangles the falsely-coupled segment and entity annotations that arises from the block-level annotation of FUNSD. Using the proposed dataset, we evaluate the real-world information extraction capabilities of PTLMs from multiple aspects, including their absolute performance, as well as generalization, robustness and fairness. The results indicate that prevalent PTLMs do not perform as well as anticipated in real-world information extraction scenarios. We hope that our study can inspire reflection on the directions of PTLM development.
Abstract（参考訳）: 最近開発されたPTLM(Pre-trained text-and-layout model)は、視覚的にリッチな文書(VrD)上の複数の情報抽出タスクにおいて顕著な成功を収めている。しかし、ベンチマークで非常に高いパフォーマンスを達成したにもかかわらず、実際のパフォーマンスは期待に届かなかった。そこで本研究では,(1)ベンチマークデータセット内のアノテーションの不適切なアノテーションは,タスク入力とラベルの急激な相関を導入し,モデル性能の過度な最適推定に繋がることを示す。 2) 評価はベンチマークの性能にのみ依存しており,実際のシナリオにおけるメソッドの能力を総合的に調べるには不十分である。これらの問題は、メソッドの実際の性能を反映し、メソッド最適化の設計選択を誤解させることから、一般的な評価パイプラインを阻害する。本稿では,視覚的にリッチな文書から情報抽出をベンチマークするためのエンティティ中心のデータセットであるEC-FUNSDを紹介する。このデータセットには、さまざまなレイアウトと高品質のアノテーションが含まれている。さらに、このデータセットは、FUNSDのブロックレベルアノテーションから生じる偽結合セグメントとエンティティアノテーションをアンハングルする。提案したデータセットを用いて,PTLMの絶対性能,一般化,堅牢性,公正性など,複数の側面から実世界の情報抽出能力を評価する。その結果,PTLMは実世界の情報抽出のシナリオでは期待通りに動作しないことがわかった。我々はPTLM開発の方向性を反映させることができることを願っている。

関連論文リスト

Sphinx: Benchmarking and Modeling for LLM-Driven Pull Request Review [37.98161722413899]
プルリクエスト(PR)レビューは、ソフトウェア品質を保証する上で不可欠だが、ノイズの多い監視、限られたコンテキスト理解、不適切な評価指標のため、依然として難しい。提案するPRレビュー用統合フレームワークであるSphinxは,(1)擬似修飾コードとマージコードを比較することによって,文脈に富んだ,意味論的根拠のあるレビューコメントを生成する構造化データ生成パイプライン,(2)実行可能な検証ポイントの構造化カバレッジに基づいてレビュー品質を評価するチェックリストに基づく評価ベンチマーク,(3)ルールベースで解釈可能な報酬を用いて,モデル動作を現実と整合させる新しいトレーニングパラダイムであるCRPOである。
論文参考訳（メタデータ） (2026-01-06T18:49:56Z)
What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。 2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文参考訳（メタデータ） (2025-11-17T20:50:50Z)
Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance [38.362162910767466]
我々は、Tulu-3-SFT-MixとSmolTalkという2つの著名なオープントレーニング後のデータセットを総合的に分析した。構造的および質的な類似点と2つのデータセットの違いを明らかにする統計を導出する。我々の発見は、より効果的なトレーニング後のデータセットを構築するための実用的な洞察を提供する。
論文参考訳（メタデータ） (2025-06-06T20:34:06Z)
Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。その信頼性は、幻覚検出の課題によって妨げられている。本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文参考訳（メタデータ） (2025-05-29T09:50:56Z)
Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。 LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文参考訳（メタデータ） (2025-03-05T05:39:29Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models [0.8602553195689513]
Entity-Aspect Sentiment Triplet extract (EASTE)は、Aspect-Based Sentiment Analysisタスクである。本研究は,EASTEタスクにおける高性能化を目標とし,モデルサイズ,タイプ,適応技術がタスクパフォーマンスに与える影響について検討する。最終的には、複雑な感情分析における詳細な洞察と最先端の成果を提供する。
論文参考訳（メタデータ） (2024-07-04T16:48:14Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文参考訳（メタデータ） (2024-03-04T17:57:18Z)
Analysis of Multidomain Abstractive Summarization Using Salience Allocation [2.6880540371111445]
季節は、塩分割り当て技術を活用して要約を強化するために設計されたモデルである。本稿では、ROUGE、METEOR、BERTScore、MoverScoreなどの様々な評価指標を用いて、抽象的な要約を生成するために微調整されたモデルの性能を評価する。
論文参考訳（メタデータ） (2024-02-19T08:52:12Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task [18.623619585980688]
本研究では,大言語モデルの対話理解能力を評価するために,スロット充足タスクに基づく統一ロバストネス評価フレームワークを提案する。具体的には,5種類の単一摂動と4種類の混合摂動データを含む入力摂動評価データセットであるノイズLLMを構築した。本研究の目的は,LLMの様々なロバスト性評価手法が実世界の雑音のシナリオでどの程度機能するかを評価することである。
論文参考訳（メタデータ） (2023-10-10T10:22:05Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
Document-Level Relation Extraction with Sentences Importance Estimation and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。 2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文参考訳（メタデータ） (2022-04-27T03:20:07Z)
Does Recommend-Revise Produce Reliable Annotations? An Analysis on Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文参考訳（メタデータ） (2022-04-17T11:29:01Z)
WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文参考訳（メタデータ） (2021-05-21T11:58:50Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
Entity-level Factual Consistency of Abstractive Text Summarization [26.19686599842915]
抽象要約の重要な課題は、生成した要約の原文書に対する事実的一貫性を保証することである。生成した要約の実体レベルの事実整合性を定量化するための新しいメトリクスセットを提案する。
論文参考訳（メタデータ） (2021-02-18T03:07:28Z)
A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文参考訳（メタデータ） (2020-10-30T15:09:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。