Fugu-MT 論文翻訳(概要): arXiVeri: Automatic table verification with GPT

論文の概要: arXiVeri: Automatic table verification with GPT

arxiv url: http://arxiv.org/abs/2306.07968v1
Date: Tue, 13 Jun 2023 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 12:15:12.870705
Title: arXiVeri: Automatic table verification with GPT
Title（参考訳）: arXiVeri: GPTによるテーブルの自動検証
Authors: Gyungin Shin, Weidi Xie, Samuel Albanie
Abstract要約: 自動表検証(AutoTV)の新たな課題を提案する。本研究の目的は,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することである。現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。
参考スコア（独自算出の注目度）: 44.388120096898554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Without accurate transcription of numerical data in scientific documents, a scientist cannot draw accurate conclusions. Unfortunately, the process of copying numerical data from one paper to another is prone to human error. In this paper, we propose to meet this challenge through the novel task of automatic table verification (AutoTV), in which the objective is to verify the accuracy of numerical data in tables by cross-referencing cited sources. To support this task, we propose a new benchmark, arXiVeri, which comprises tabular data drawn from open-access academic papers on arXiv. We introduce metrics to evaluate the performance of a table verifier in two key areas: (i) table matching, which aims to identify the source table in a cited document that corresponds to a target table, and (ii) cell matching, which aims to locate shared cells between a target and source table and identify their row and column indices accurately. By leveraging the flexible capabilities of modern large language models (LLMs), we propose simple baselines for table verification. Our findings highlight the complexity of this task, even for state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made publicly available.
Abstract（参考訳）: 科学的文書における数値データの正確な書き起こしがなければ、科学者は正確な結論を導き出せない。残念ながら、ある紙から別の紙に数値データをコピーするプロセスは、ヒューマンエラーを起こしやすい。本稿では,この課題を,参照ソースを相互参照することで,テーブル内の数値データの精度を検証することを目的とした,自動テーブル検証(AutoTV)という新たな課題を通じて解決することを提案する。そこで本研究では,arxivに関するオープンアクセス学術論文から得られた表データを含む新しいベンチマークarxiveriを提案する。テーブル検証器の性能を評価するための指標を2つの重要な領域で紹介する。 (i)対象のテーブルに対応する引用文書のソーステーブルを識別することを目的としたテーブルマッチング (ii) ターゲットとソーステーブル間の共有セルの特定と行と列のインデックスの正確な識別を目的としたセルマッチング。現代の大規模言語モデル(LLM)の柔軟性を活用して,テーブル検証のためのシンプルなベースラインを提案する。本研究は,OpenAI の GPT-4 のような最先端 LLM においても,この課題の複雑さを強調した。コードとベンチマークは一般公開される予定だ。

関連論文リスト

A Hybrid Search for Complex Table Question Answering in Securities Report [0.9430947207126281]
手動による識別を伴わないTQA(Table Question Answering)のためのセル抽出法を提案する。提案手法は,与えられた質問と個々のセルの類似性を計算し,テーブルヘッダーを推定する。次に、最も関連する行と列の交点にあるセルの答えとして選択する。
論文参考訳（メタデータ） (2025-11-12T10:19:27Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。 ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文参考訳（メタデータ） (2024-10-25T18:31:50Z)
TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。 TableLLMはデータ操作タスクを巧みに扱うために構築されている。我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文参考訳（メタデータ） (2024-03-28T11:21:12Z)
TDeLTA: A Light-weight and Robust Table Detection Method based on Learning Text Arrangement [34.73880086005418]
本稿では,学習テキストアレンジメント(TDeLTA)に基づく新しい,軽量で堅牢なテーブル検出手法を提案する。表を正確に特定するために,表内の意味的役割に応じてテキストブロックを4つのカテゴリに分類するテキスト分類タスクを設計する。いくつかの最先端の手法と比較して、TDeLTAは大規模な公開データセットの3.1Mモデルパラメータで競合する結果を得る。
論文参考訳（メタデータ） (2023-12-18T09:18:43Z)
Data augmentation on graphs for table type classification [1.1859913430860336]
グラフニューラルネットワークを用いてテーブルの分類を行い、使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。我々は,グラフベースの表表現に適したデータ拡張手法を提案することで,有望な予備結果を実現する。
論文参考訳（メタデータ） (2022-08-23T21:54:46Z)
Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。 PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文参考訳（メタデータ） (2022-08-23T21:36:01Z)
TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文参考訳（メタデータ） (2021-06-20T01:57:05Z)
A Graph Representation of Semi-structured Data for Web Question Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文参考訳（メタデータ） (2020-10-14T04:01:54Z)
ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文参考訳（メタデータ） (2020-04-29T17:53:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。