論文の概要: Uncertainty-Aware Complex Scientific Table Data Extraction
- arxiv url: http://arxiv.org/abs/2507.02009v2
- Date: Tue, 08 Jul 2025 23:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.042847
- Title: Uncertainty-Aware Complex Scientific Table Data Extraction
- Title(参考訳): 不確実性を考慮した複雑な科学表データ抽出
- Authors: Kehinde Ajayi, Yi He, Jian Wu,
- Abstract要約: テーブル構造認識(TSR)と光学文字認識(OCR)は、科学文書中のテーブルから構造化データを抽出する上で重要な役割を担っている。
TSRとOCRの上に構築された既存の抽出フレームワークは、しばしば抽出結果の不確実性の定量化に失敗する。
本稿では,共形予測に基づく複雑な科学表のための不確実性を考慮したデータ抽出を行うフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.913734410452428
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Table structure recognition (TSR) and optical character recognition (OCR) play crucial roles in extracting structured data from tables in scientific documents. However, existing extraction frameworks built on top of TSR and OCR methods often fail to quantify the uncertainties of extracted results. To obtain highly accurate data for scientific domains, all extracted data must be manually verified, which can be time-consuming and labor-intensive. We propose a framework that performs uncertainty-aware data extraction for complex scientific tables, built on conformal prediction, a model-agnostic method for uncertainty quantification (UQ). We explored various uncertainty scoring methods to aggregate the uncertainties introduced by TSR and OCR. We rigorously evaluated the framework using a standard benchmark and an in-house dataset consisting of complex scientific tables in six scientific domains. The results demonstrate the effectiveness of using UQ for extraction error detection, and by manually verifying only 47% of extraction results, the data quality can be improved by 30%. Our work quantitatively demonstrates the role of UQ with the potential of improving the efficiency in the human-machine cooperation process to obtain scientifically usable data from complex tables in scientific documents. All code and data are available on GitHub at https://github.com/lamps-lab/TSR-OCR-UQ/tree/main.
- Abstract(参考訳): テーブル構造認識(TSR)と光学文字認識(OCR)は、科学文書中のテーブルから構造化データを抽出する上で重要な役割を担っている。
しかし、TSRおよびOCR法上に構築された既存の抽出フレームワークは、抽出結果の不確かさの定量化に失敗することが多い。
科学的領域の高精度なデータを得るには、すべての抽出データを手作業で検証する必要がある。
本研究では,不確実性定量化(UQ)のモデル非依存手法である共形予測に基づいて,複雑な科学表に対して不確実性を考慮したデータ抽出を行うフレームワークを提案する。
我々は,TSRとOCRが導入した不確実性を集約するために,様々な不確実性評価手法を検討した。
標準ベンチマークと6つの科学領域の複雑な科学表からなる社内データセットを用いて、フレームワークを厳格に評価した。
その結果, 抽出誤差検出にUQを用いることの有効性が示され, 抽出結果の47%を手作業で検証することで, データ品質を30%向上できることがわかった。
我々の研究は、複雑な表から科学的に有用なデータを得るために、人間と機械の協調プロセスにおける効率を向上させる可能性を持つUQの役割を定量的に実証している。
すべてのコードとデータはGitHubでhttps://github.com/lamps-lab/TSR-OCR-UQ/tree/mainで公開されている。
関連論文リスト
- Ensuring Reliability of Curated EHR-Derived Data: The Validation of Accuracy for LLM/ML-Extracted Information and Data (VALID) Framework [0.0]
大規模言語モデル(LLM)により抽出された臨床データの質を評価するための包括的枠組みを提案する。
このフレームワークは、専門家による抽象化に対する変数レベルのパフォーマンスベンチマーク、内部の一貫性と妥当性の自動検証、レプリケーション分析を統合している。
この多次元アプローチは、改善が必要な変数の同定、潜時エラーの体系的検出、および実世界の研究におけるデータセットの適合性確認を可能にする。
論文 参考訳(メタデータ) (2025-06-09T20:59:16Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Discovering physical laws with parallel combinatorial tree search [57.05912962368898]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは10年以上にわたって精度と効率の重大なボトルネックに直面してきた。
制約データから汎用数学的表現を効率的に抽出する並列木探索(PCTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Data Collaboration Analysis applied to Compound Datasets and the
Introduction of Projection data to Non-IID settings [6.037276428689637]
フェデレートラーニングは複合データセットに適用され、予測精度を高めつつ、潜在的にプロプライエタリな情報を保護している。
データ協調分析(DCPd)と呼ばれる,オープンソースからの化学合成データに対する分散機械学習の代替手法を提案する。
DCPdはラベルバイアスの程度が異なる実験では分類精度が無視できる低下を示した。
論文 参考訳(メタデータ) (2023-08-01T04:37:08Z) - GAN-based Tabular Data Generator for Constructing Synopsis in
Approximate Query Processing: Challenges and Solutions [0.0]
Approximate Query Processing (AQP) は、データ(シノプシス)の要約に基づいて、集約されたクエリに近似した回答を提供する技術である。
本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。
以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-18T05:11:04Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Deep Transformer Networks for Time Series Classification: The NPP Safety
Case [59.20947681019466]
時間依存nppシミュレーションデータをモデル化するために、教師付き学習方法でトランスフォーマと呼ばれる高度なテンポラルニューラルネットワークを使用する。
トランスはシーケンシャルデータの特性を学習し、テストデータセット上で約99%の分類精度で有望な性能が得られる。
論文 参考訳(メタデータ) (2021-04-09T14:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。