論文の概要: QUEST: Quality-aware Semi-supervised Table Extraction for Business Documents
- arxiv url: http://arxiv.org/abs/2506.14568v1
- Date: Tue, 17 Jun 2025 14:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.518754
- Title: QUEST: Quality-aware Semi-supervised Table Extraction for Business Documents
- Title(参考訳): QUEST:ビジネス文書の品質を考慮した半教師付きテーブル抽出
- Authors: Eliott Thomas, Mickael Coustaty, Aurelie Joseph, Gaspar Deloin, Elodie Carel, Vincent Poulain D'Andecy, Jean-Marc Ogier,
- Abstract要約: QUESTはビジネス文書のための品質対応の半教師付きテーブル抽出フレームワークである。
QUESTは、信頼度基準に頼るのではなく、F1スコアを予測するために訓練された抽出テーブルの構造的特徴と文脈的特徴を評価する。
- 参考スコア(独自算出の注目度): 0.1516287840715525
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automating table extraction (TE) from business documents is critical for industrial workflows but remains challenging due to sparse annotations and error-prone multi-stage pipelines. While semi-supervised learning (SSL) can leverage unlabeled data, existing methods rely on confidence scores that poorly reflect extraction quality. We propose QUEST, a Quality-aware Semi-supervised Table extraction framework designed for business documents. QUEST introduces a novel quality assessment model that evaluates structural and contextual features of extracted tables, trained to predict F1 scores instead of relying on confidence metrics. This quality-aware approach guides pseudo-label selection during iterative SSL training, while diversity measures (DPP, Vendi score, IntDiv) mitigate confirmation bias. Experiments on a proprietary business dataset (1000 annotated + 10000 unannotated documents) show QUEST improves F1 from 64% to 74% and reduces empty predictions by 45% (from 12% to 6.5%). On the DocILE benchmark (600 annotated + 20000 unannotated documents), QUEST achieves a 50% F1 score (up from 42%) and reduces empty predictions by 19% (from 27% to 22%). The framework's interpretable quality assessments and robustness to annotation scarcity make it particularly suited for business documents, where structural consistency and data completeness are paramount.
- Abstract(参考訳): ビジネス文書からテーブル抽出(TE)を自動化することは、産業ワークフローにとって重要であるが、疎いアノテーションとエラーを起こしやすいマルチステージパイプラインのため、依然として困難である。
半教師付き学習(SSL)はラベルのないデータを活用することができるが、既存の手法は、抽出品質をあまり反映しない信頼スコアに依存している。
ビジネス文書を対象とした品質対応型半教師付きテーブル抽出フレームワークQUESTを提案する。
QUESTは、信頼度基準に頼るのではなく、F1スコアを予測するために訓練された、抽出されたテーブルの構造的特徴と文脈的特徴を評価する新しい品質評価モデルを導入している。
この品質認識アプローチは、反復SSLトレーニング中に擬似ラベルの選択を誘導し、多様性尺度(DPP、Vendi score、IntDiv)は確認バイアスを軽減する。
プロプライエタリなビジネスデータセット(1000の注釈付き+10000の未注釈文書)の実験では、QUESTはF1を64%から74%に改善し、空の予測を45%(12%から6.5%)削減している。
DocILEベンチマーク(600 annotated + 20000 unannotated document)では、QUESTは50%のF1スコア(42%から上昇)を獲得し、空の予測を19%(27%から22%)削減する。
フレームワークの解釈可能な品質評価とアノテーション不足に対する堅牢性は、構造的な一貫性とデータの完全性が最重要であるビジネス文書に特に適しています。
関連論文リスト
- Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - R+R: Security Vulnerability Dataset Quality Is Critical [0.6906005491572401]
多くの研究では、高い複製率、疑わしいラベルの精度、不完全なサンプルに悩まされているデータセットを使用している。
その結果, 試料の56%が不正なラベルであり, 44%が不完全であり, 31%のみが正確で完全であった。
我々は,大規模な重複バグフィックスコーパスを用いた転送学習を用いて,高品質な事前学習データが大きいと,これらのモデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2025-03-09T01:49:30Z) - Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Unveiling the Deficiencies of Pre-trained Text-and-Layout Models in Real-world Visually-rich Document Information Extraction [19.083538884467917]
視覚に富んだ文書から情報抽出をベンチマークするためのエンティティ中心のデータセットであるEC-FUNSDを紹介する。
PTLMの絶対性能, 一般化, 堅牢性, 公正性など, 複数の側面から実世界の情報抽出能力を評価する。
論文 参考訳(メタデータ) (2024-02-04T07:33:45Z) - On Evaluation of Document Classification using RVL-CDIP [3.575650613011277]
RVL-CDIPベンチマークは文書分類作業の性能測定に広く用いられている。
RVL-CDIPベンチマークの好ましくない特徴をいくつか明らかにした。
我々は、新しい文書分類ベンチマークの作成を提唱し、そのようなリソースがどのような特徴を持つべきかを推奨する。
論文 参考訳(メタデータ) (2023-06-21T20:32:22Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Information Redundancy and Biases in Public Document Information
Extraction Benchmarks [0.0]
公開ベンチマークで微調整された場合、KIEモデルの優れたパフォーマンスにもかかわらず、十分な文書アノテーションが欠如している複雑な実生活のユースケースを一般化するのに依然として苦労している。
我々の研究は、SROIEやFUNSDなどのKIE標準ベンチマークは、トレーニングとテスト文書の間に大きな類似点があり、モデルの一般化をよりよく評価するために調整可能であることを強調した。
論文 参考訳(メタデータ) (2023-04-28T15:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。