論文の概要: Information Redundancy and Biases in Public Document Information
Extraction Benchmarks
- arxiv url: http://arxiv.org/abs/2304.14936v1
- Date: Fri, 28 Apr 2023 15:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 13:31:34.647578
- Title: Information Redundancy and Biases in Public Document Information
Extraction Benchmarks
- Title(参考訳): 公開文書情報抽出ベンチマークにおける情報冗長性とバイアス
- Authors: Seif Laatiri, Pirashanth Ratnamogan, Joel Tang, Laurent Lam, William
Vanhuffel, Fabien Caspani
- Abstract要約: 公開ベンチマークで微調整された場合、KIEモデルの優れたパフォーマンスにもかかわらず、十分な文書アノテーションが欠如している複雑な実生活のユースケースを一般化するのに依然として苦労している。
我々の研究は、SROIEやFUNSDなどのKIE標準ベンチマークは、トレーニングとテスト文書の間に大きな類似点があり、モデルの一般化をよりよく評価するために調整可能であることを強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in the Visually-rich Document Understanding (VrDU) field and
particularly the Key-Information Extraction (KIE) task are marked with the
emergence of efficient Transformer-based approaches such as the LayoutLM
models. Despite the good performance of KIE models when fine-tuned on public
benchmarks, they still struggle to generalize on complex real-life use-cases
lacking sufficient document annotations. Our research highlighted that KIE
standard benchmarks such as SROIE and FUNSD contain significant similarity
between training and testing documents and can be adjusted to better evaluate
the generalization of models. In this work, we designed experiments to quantify
the information redundancy in public benchmarks, revealing a 75% template
replication in SROIE official test set and 16% in FUNSD. We also proposed
resampling strategies to provide benchmarks more representative of the
generalization ability of models. We showed that models not suited for document
analysis struggle on the adjusted splits dropping on average 10,5% F1 score on
SROIE and 3.5% on FUNSD compared to multi-modal models dropping only 7,5% F1 on
SROIE and 0.5% F1 on FUNSD.
- Abstract(参考訳): Visually-rich Document Understanding (VrDU)フィールドの進歩、特にキー情報抽出(KIE)タスクは、LayoutLMモデルのような効率的なトランスフォーマーベースのアプローチの出現によって特徴付けられる。
公開ベンチマークで微調整されたkieモデルの優れた性能にもかかわらず、十分なドキュメントアノテーションを持たない複雑な実生活ユースケースの一般化にはまだ苦労している。
我々の研究は、SROIEやFUNSDなどのKIE標準ベンチマークは、トレーニングとテスト文書の間に大きな類似点があり、モデルの一般化をよりよく評価するために調整可能であることを強調した。
本研究では,公開ベンチマークにおける情報冗長性を定量化し,sroie公式テストセットで75%,funsdで16%のテンプレートレプリケーションを明らかにした。
また,モデルの一般化能力を示すベンチマークを提供するための再サンプリング戦略も提案した。
その結果、文書分析に適さないモデルは、sroieでは平均10,5%f1、funsdでは3.5%、sroieでは7,5%f1、funsdでは0.5%f1であった。
関連論文リスト
- TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - RoDLA: Benchmarking the Robustness of Document Layout Analysis Models [32.52120363558076]
3つのデータセットの450万のドキュメントイメージを含むドキュメントレイアウト分析(DLA)モデルの堅牢性ベンチマークを導入する。
そこで本研究では,現実の文書処理に触発された36の共用文書摂動を伴う摂動分類を提案する。
文書摂動の影響をよりよく理解するために、摂動評価のための平均摂動効果(mPE)と頑健性評価のための平均ロバストネス劣化(mRD)の2つの指標を提案する。
論文 参考訳(メタデータ) (2024-03-21T14:47:12Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Embedding Models for Supervised Automatic Extraction and Classification
of Named Entities in Scientific Acknowledgements [5.330844352905488]
本研究の目的は,認識エンティティの自動抽出と分類を行うタスクにおいて,異なる埋め込みモデルの性能を評価することである。
トレーニングは、Frair NERの3つのデフォルトモデルと4つの異なる大きさのコーパスと異なるバージョンのFlair NLPフレームワークを使用して実施された。
このモデルでは、資金提供機関、認可番号、個人、大学、企業、雑多な6つのエンティティタイプを認識できる。
論文 参考訳(メタデータ) (2023-07-25T09:51:17Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Domain Adaptation of Transformer-Based Models using Unlabeled Data for
Relevance and Polarity Classification of German Customer Feedback [1.2999413717930817]
この研究は、ドイツの顧客フィードバックデータセットを扱う際に、トランスフォーマーベースのモデルがいかに効率的であるかを調査する。
実験結果から,Transformerベースのモデルでは,fastTextベースラインに比べて大幅な改善が期待できることがわかった。
論文 参考訳(メタデータ) (2022-12-12T08:32:28Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Boosting Randomized Smoothing with Variance Reduced Classifiers [4.110108749051657]
ランダム化平滑化(Randomized Smoothing, RS)のベースモデルとして, アンサンブルが特に適した選択である理由を考察する。
我々は、この選択を実証的に確認し、複数の設定でアート結果の状態を取得する。
論文 参考訳(メタデータ) (2021-06-13T08:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。