論文の概要: Schema-Driven Information Extraction from Heterogeneous Tables
- arxiv url: http://arxiv.org/abs/2305.14336v2
- Date: Wed, 15 Nov 2023 18:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:24:26.495945
- Title: Schema-Driven Information Extraction from Heterogeneous Tables
- Title(参考訳): 不均一テーブルからのスキーマ駆動情報抽出
- Authors: Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Alan Ritter
- Abstract要約: 人為的なスキーマに従って、表形式のデータを構造化されたレコードに変換する新しいタスクである、スキーマ駆動情報抽出を導入する。
我々は、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野からなるテーブルからなるベンチマークを開発する。
提案手法は,タスク固有のラベルを使わずに,74.2から96.1までのF1スコアを達成し,高いコスト効率を維持しながら,競争性能を示す。
- 参考スコア(独自算出の注目度): 30.302982262763447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the question of whether large language models can
support cost-efficient information extraction from tables. We introduce
schema-driven information extraction, a new task that transforms tabular data
into structured records following a human-authored schema. To assess various
LLM's capabilities on this task, we develop a benchmark composed of tables from
four diverse domains: machine learning papers, chemistry literature, material
science journals, and webpages. Alongside the benchmark, we present an
extraction method based on instruction-tuned LLMs. Our approach shows
competitive performance without task-specific labels, achieving F1 scores
ranging from 74.2 to 96.1, while maintaining great cost efficiency. Moreover,
we validate the possibility of distilling compact table-extraction models to
reduce API reliance, as well as extraction from image tables using multi-modal
models. By developing a benchmark and demonstrating the feasibility of this
task using proprietary models, we aim to support future work on open-source
schema-driven IE models.
- Abstract(参考訳): 本稿では,大規模言語モデルがテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。
本稿では,表データから構造化レコードへ変換する新しいタスクであるスキーマ駆動情報抽出を提案する。
このタスクにおける様々なllmの能力を評価するために、機械学習論文、化学文献、材料科学雑誌、webページという4つの異なる分野の表からなるベンチマークを開発した。
ベンチマークの他に,命令調整 LLM に基づく抽出手法を提案する。
本手法は,タスク固有のラベルを使わずに,74.2から96.1までのF1スコアを達成し,高いコスト効率を維持しながら,競争性能を示す。
さらに,マルチモーダルモデルを用いた画像テーブルからの抽出とともに,コンパクトなテーブル抽出モデルを蒸留してAPI依存を減らす可能性を検証する。
ベンチマークを開発し、プロプライエタリなモデルを用いてこのタスクの実現可能性を示すことにより、我々はオープンソーススキーマ駆動IEモデルの将来的な開発を支援することを目指している。
関連論文リスト
- ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。