論文の概要: Information Redundancy and Biases in Public Document Information
Extraction Benchmarks
- arxiv url: http://arxiv.org/abs/2304.14936v1
- Date: Fri, 28 Apr 2023 15:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 13:31:34.647578
- Title: Information Redundancy and Biases in Public Document Information
Extraction Benchmarks
- Title(参考訳): 公開文書情報抽出ベンチマークにおける情報冗長性とバイアス
- Authors: Seif Laatiri, Pirashanth Ratnamogan, Joel Tang, Laurent Lam, William
Vanhuffel, Fabien Caspani
- Abstract要約: 公開ベンチマークで微調整された場合、KIEモデルの優れたパフォーマンスにもかかわらず、十分な文書アノテーションが欠如している複雑な実生活のユースケースを一般化するのに依然として苦労している。
我々の研究は、SROIEやFUNSDなどのKIE標準ベンチマークは、トレーニングとテスト文書の間に大きな類似点があり、モデルの一般化をよりよく評価するために調整可能であることを強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in the Visually-rich Document Understanding (VrDU) field and
particularly the Key-Information Extraction (KIE) task are marked with the
emergence of efficient Transformer-based approaches such as the LayoutLM
models. Despite the good performance of KIE models when fine-tuned on public
benchmarks, they still struggle to generalize on complex real-life use-cases
lacking sufficient document annotations. Our research highlighted that KIE
standard benchmarks such as SROIE and FUNSD contain significant similarity
between training and testing documents and can be adjusted to better evaluate
the generalization of models. In this work, we designed experiments to quantify
the information redundancy in public benchmarks, revealing a 75% template
replication in SROIE official test set and 16% in FUNSD. We also proposed
resampling strategies to provide benchmarks more representative of the
generalization ability of models. We showed that models not suited for document
analysis struggle on the adjusted splits dropping on average 10,5% F1 score on
SROIE and 3.5% on FUNSD compared to multi-modal models dropping only 7,5% F1 on
SROIE and 0.5% F1 on FUNSD.
- Abstract(参考訳): Visually-rich Document Understanding (VrDU)フィールドの進歩、特にキー情報抽出(KIE)タスクは、LayoutLMモデルのような効率的なトランスフォーマーベースのアプローチの出現によって特徴付けられる。
公開ベンチマークで微調整されたkieモデルの優れた性能にもかかわらず、十分なドキュメントアノテーションを持たない複雑な実生活ユースケースの一般化にはまだ苦労している。
我々の研究は、SROIEやFUNSDなどのKIE標準ベンチマークは、トレーニングとテスト文書の間に大きな類似点があり、モデルの一般化をよりよく評価するために調整可能であることを強調した。
本研究では,公開ベンチマークにおける情報冗長性を定量化し,sroie公式テストセットで75%,funsdで16%のテンプレートレプリケーションを明らかにした。
また,モデルの一般化能力を示すベンチマークを提供するための再サンプリング戦略も提案した。
その結果、文書分析に適さないモデルは、sroieでは平均10,5%f1、funsdでは3.5%、sroieでは7,5%f1、funsdでは0.5%f1であった。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models [15.50128790503447]
我々はMin-K%++という名前の事前学習データ検出のための新しい理論的動機付け手法を提案する。
具体的には,各入力次元に沿ったモデル分布の局所的な最大値であることを示す。
論文 参考訳(メタデータ) (2024-04-03T04:25:01Z) - RoDLA: Benchmarking the Robustness of Document Layout Analysis Models [32.52120363558076]
3つのデータセットの450万のドキュメントイメージを含むドキュメントレイアウト分析(DLA)モデルの堅牢性ベンチマークを導入する。
そこで本研究では,現実の文書処理に触発された36の共用文書摂動を伴う摂動分類を提案する。
文書摂動の影響をよりよく理解するために、摂動評価のための平均摂動効果(mPE)と頑健性評価のための平均ロバストネス劣化(mRD)の2つの指標を提案する。
論文 参考訳(メタデータ) (2024-03-21T14:47:12Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Domain Adaptation of Transformer-Based Models using Unlabeled Data for
Relevance and Polarity Classification of German Customer Feedback [1.2999413717930817]
この研究は、ドイツの顧客フィードバックデータセットを扱う際に、トランスフォーマーベースのモデルがいかに効率的であるかを調査する。
実験結果から,Transformerベースのモデルでは,fastTextベースラインに比べて大幅な改善が期待できることがわかった。
論文 参考訳(メタデータ) (2022-12-12T08:32:28Z) - Text Embeddings by Weakly-Supervised Contrastive Pre-training [98.31785569325402]
E5は最先端のテキスト埋め込みのファミリーであり、幅広いタスクにうまく転送される。
E5は、テキストの単一ベクトル表現を必要とするタスクに対して、汎用的な埋め込みモデルとして簡単に使用できる。
論文 参考訳(メタデータ) (2022-12-07T09:25:54Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。