論文の概要: Schema-Driven Information Extraction from Heterogeneous Tables
- arxiv url: http://arxiv.org/abs/2305.14336v2
- Date: Wed, 15 Nov 2023 18:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:24:26.495945
- Title: Schema-Driven Information Extraction from Heterogeneous Tables
- Title(参考訳): 不均一テーブルからのスキーマ駆動情報抽出
- Authors: Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Alan Ritter
- Abstract要約: 人為的なスキーマに従って、表形式のデータを構造化されたレコードに変換する新しいタスクである、スキーマ駆動情報抽出を導入する。
我々は、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野からなるテーブルからなるベンチマークを開発する。
提案手法は,タスク固有のラベルを使わずに,74.2から96.1までのF1スコアを達成し,高いコスト効率を維持しながら,競争性能を示す。
- 参考スコア(独自算出の注目度): 30.302982262763447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the question of whether large language models can
support cost-efficient information extraction from tables. We introduce
schema-driven information extraction, a new task that transforms tabular data
into structured records following a human-authored schema. To assess various
LLM's capabilities on this task, we develop a benchmark composed of tables from
four diverse domains: machine learning papers, chemistry literature, material
science journals, and webpages. Alongside the benchmark, we present an
extraction method based on instruction-tuned LLMs. Our approach shows
competitive performance without task-specific labels, achieving F1 scores
ranging from 74.2 to 96.1, while maintaining great cost efficiency. Moreover,
we validate the possibility of distilling compact table-extraction models to
reduce API reliance, as well as extraction from image tables using multi-modal
models. By developing a benchmark and demonstrating the feasibility of this
task using proprietary models, we aim to support future work on open-source
schema-driven IE models.
- Abstract(参考訳): 本稿では,大規模言語モデルがテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。
本稿では,表データから構造化レコードへ変換する新しいタスクであるスキーマ駆動情報抽出を提案する。
このタスクにおける様々なllmの能力を評価するために、機械学習論文、化学文献、材料科学雑誌、webページという4つの異なる分野の表からなるベンチマークを開発した。
ベンチマークの他に,命令調整 LLM に基づく抽出手法を提案する。
本手法は,タスク固有のラベルを使わずに,74.2から96.1までのF1スコアを達成し,高いコスト効率を維持しながら,競争性能を示す。
さらに,マルチモーダルモデルを用いた画像テーブルからの抽出とともに,コンパクトなテーブル抽出モデルを蒸留してAPI依存を減らす可能性を検証する。
ベンチマークを開発し、プロプライエタリなモデルを用いてこのタスクの実現可能性を示すことにより、我々はオープンソーススキーマ駆動IEモデルの将来的な開発を支援することを目指している。
関連論文リスト
- Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Large Language Model for Table Processing: A Survey [9.144614058716083]
大規模言語モデル (LLMs) は、学術や産業から大きな利益を得る。
テーブルは通常2次元で、大量のデータを格納するために構成され、データベースクエリやスプレッドシート計算、Webテーブルからのレポート生成といった日々のアクティビティに不可欠である。
この調査は、テーブル質問応答(Table QA)や事実検証といった従来の領域だけでなく、テーブル操作や高度なテーブルデータ分析といった、新たに強調された側面を含む、テーブルタスクの広範な概要を提供する。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。