論文の概要: Scientific evidence extraction
- arxiv url: http://arxiv.org/abs/2110.00061v1
- Date: Thu, 30 Sep 2021 19:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 05:02:11.689965
- Title: Scientific evidence extraction
- Title(参考訳): 科学的証拠抽出
- Authors: Brandon Smock and Rohith Pesala and Robin Abraham
- Abstract要約: 我々は新しいデータセットである Tables One Million (PubTables-1M) と新しいメトリクスのクラスである PubMed grid table similarity (GriTS) を提案する。
PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさである。
PubTables-1Mでトレーニングしたオブジェクト検出モデルは,検出,構造認識,機能解析の3つのタスクすべてに対して,アウト・オブ・ザ・ボックスで優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, interest has grown in applying machine learning to the problem of
table structure inference and extraction from unstructured documents. However,
progress in this area has been challenging both to make and to measure, due to
several issues that arise in training and evaluating models from labeled data.
This includes challenges as fundamental as the lack of a single definitive
ground truth output for each input sample and the lack of an ideal metric for
measuring partial correctness for this task. To address these we propose a new
dataset, PubMed Tables One Million (PubTables-1M), and a new class of metric,
grid table similarity (GriTS). PubTables-1M is nearly twice as large as the
previous largest comparable dataset, can be used for models across multiple
architectures and modalities, and addresses issues such as ambiguity and lack
of consistency in the annotations. We apply DETR to table extraction for the
first time and show that object detection models trained on PubTables-1M
produce excellent results out-of-the-box for all three tasks of detection,
structure recognition, and functional analysis. We describe the dataset in
detail to enable others to build on our work and combine this data with other
datasets for these and related tasks. It is our hope that PubTables-1M and the
proposed metrics can further progress in this area by creating a benchmark
suitable for training and evaluating a wide variety of models for table
extraction. Data and code will be released at
https://github.com/microsoft/table-transformer.
- Abstract(参考訳): 近年,非構造化文書からのテーブル構造推論と抽出の問題に機械学習を適用することへの関心が高まっている。
しかしながら、ラベル付きデータからモデルのトレーニングや評価を行う際に生じるいくつかの問題から、この分野の進歩は、作成と測定の両方に挑戦している。
これには、各入力サンプルに対して1つの決定的基底真理出力が欠如していることや、このタスクの部分的正しさを測定する理想的な計量が欠如していることなど、基本的な課題が含まれる。
そこで我々は,新しいデータセットであるpubmed table 100万(pubtables-1m)と,新しいメトリッククラスであるgrid table similarity(grits)を提案する。
PubTables-1Mは、これまでで最大のデータセットの約2倍の大きさで、複数のアーキテクチャやモダリティをまたいだモデルで使用することができ、曖昧さやアノテーションの一貫性の欠如といった問題に対処する。
DeTRを初めてテーブル抽出に適用し,PubTables-1Mでトレーニングしたオブジェクト検出モデルが,検出,構造認識,機能解析の3つのタスクすべてに対して,優れた結果をもたらすことを示す。
データセットを詳細に説明し、他の人が作業の上に構築し、これらのデータと関連するタスクのための他のデータセットを組み合わせられるようにします。
pubtables-1mと提案するメトリクスが,テーブル抽出のための多種多様なモデルのトレーニングと評価に適したベンチマークを作成することにより,この分野のさらなる進展を期待する。
データとコードはhttps://github.com/microsoft/table-transformerでリリースされる。
関連論文リスト
- TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [25.169832192255956]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Testing the Limits of Unified Sequence to Sequence LLM Pretraining on
Diverse Table Data Tasks [2.690048852269647]
本研究では、770Mから11Bのシーケンスからシーケンスモデルにスケールする際のテーブル特定事前学習に対する統一的なアプローチの利点について検討する。
我々の研究は、770Mから11Bのシーケンスからシーケンスモデルにスケールする際、テーブル固有の事前訓練に対する統一的なアプローチの利点を研究する最初の試みである。
論文 参考訳(メタデータ) (2023-10-01T21:06:15Z) - Retrieval-Based Transformer for Table Augmentation [14.460363647772745]
我々は、自動データラングリングに対する新しいアプローチを導入する。
本研究の目的は,行数や列数,データ計算などのテーブル拡張タスクに対処することである。
我々のモデルは、教師付き統計手法と最先端のトランスフォーマーベースモデルの両方より一貫して、実質的に優れています。
論文 参考訳(メタデータ) (2023-06-20T18:51:21Z) - Towards End-to-End Semi-Supervised Table Detection with Deformable
Transformer [11.648151981111436]
テーブル検出は、ドキュメントイメージ内のテーブルオブジェクトを分類し、ローカライズするタスクである。
多くの半教師付きアプローチが、大量のラベルデータの必要性を軽減するために導入されている。
本稿では,テーブルオブジェクトの検出にデフォルマブルトランスを用いた,エンド・ツー・エンドの半教師付きテーブル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:15:15Z) - Parameter-Efficient Abstractive Question Answering over Tables or Text [60.86457030988444]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。
メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。
パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文 参考訳(メタデータ) (2022-04-07T10:56:29Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。