論文の概要: arXiVeri: Automatic table verification with GPT
- arxiv url: http://arxiv.org/abs/2306.07968v1
- Date: Tue, 13 Jun 2023 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:15:12.870705
- Title: arXiVeri: Automatic table verification with GPT
- Title(参考訳): arXiVeri: GPTによるテーブルの自動検証
- Authors: Gyungin Shin, Weidi Xie, Samuel Albanie
- Abstract要約: 自動表検証(AutoTV)の新たな課題を提案する。
本研究の目的は,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することである。
現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
- 参考スコア(独自算出の注目度): 44.388120096898554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Without accurate transcription of numerical data in scientific documents, a
scientist cannot draw accurate conclusions. Unfortunately, the process of
copying numerical data from one paper to another is prone to human error. In
this paper, we propose to meet this challenge through the novel task of
automatic table verification (AutoTV), in which the objective is to verify the
accuracy of numerical data in tables by cross-referencing cited sources. To
support this task, we propose a new benchmark, arXiVeri, which comprises
tabular data drawn from open-access academic papers on arXiv. We introduce
metrics to evaluate the performance of a table verifier in two key areas: (i)
table matching, which aims to identify the source table in a cited document
that corresponds to a target table, and (ii) cell matching, which aims to
locate shared cells between a target and source table and identify their row
and column indices accurately. By leveraging the flexible capabilities of
modern large language models (LLMs), we propose simple baselines for table
verification. Our findings highlight the complexity of this task, even for
state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made
publicly available.
- Abstract(参考訳): 科学的文書における数値データの正確な書き起こしがなければ、科学者は正確な結論を導き出せない。
残念ながら、ある紙から別の紙に数値データをコピーするプロセスは、ヒューマンエラーを起こしやすい。
本稿では,この課題を,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することを目的とした,自動テーブル検証(AutoTV)という新たな課題を通じて解決することを提案する。
そこで本研究では,arxivに関するオープンアクセス学術論文から得られた表データを含む新しいベンチマークarxiveriを提案する。
テーブル検証器の性能を評価するための指標を2つの重要な領域で紹介する。
(i)対象のテーブルに対応する引用文書のソーステーブルを識別することを目的としたテーブルマッチング
(ii) ターゲットとソーステーブル間の共有セルの特定と行と列のインデックスの正確な識別を目的としたセルマッチング。
現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
本研究は,OpenAI の GPT-4 のような最先端 LLM においても,この課題の複雑さを強調した。
コードとベンチマークは一般公開される予定だ。
関連論文リスト
- TDeLTA: A Light-weight and Robust Table Detection Method based on
Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。
表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。
いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文 参考訳(メタデータ) (2023-12-18T09:18:43Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - A large-scale dataset for end-to-end table recognition in the wild [13.717478398235055]
テーブル認識(Table Recognition, TR)は、パターン認識におけるホットスポットの一つ。
現在、実際のシナリオにおけるエンドツーエンドのTRは、3つのサブタスクを同時に達成しているが、まだ探索されていない研究領域である。
そこで本研究では,様々なテーブル形式を持つテーブル認識セット(TabRecSet)という大規模データセットを提案する。
論文 参考訳(メタデータ) (2023-03-27T02:48:51Z) - Data augmentation on graphs for table type classification [1.1859913430860336]
グラフニューラルネットワークを用いてテーブルの分類を行い、使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。
我々は,グラフベースの表表現に適したデータ拡張手法を提案することで,有望な予備結果を実現する。
論文 参考訳(メタデータ) (2022-08-23T21:54:46Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。