論文の概要: Schema-Driven Information Extraction from Heterogeneous Tables
- arxiv url: http://arxiv.org/abs/2305.14336v1
- Date: Tue, 23 May 2023 17:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 13:27:09.487646
- Title: Schema-Driven Information Extraction from Heterogeneous Tables
- Title(参考訳): 不均一テーブルからのスキーマ駆動情報抽出
- Authors: Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Alan Ritter
- Abstract要約: 我々は、機械学習論文、化学表、Webページという3つの分野のテーブルからなるベンチマークを開発する。
提案するインストラクテ(Instructe)は,命令調整 LLM に基づくテーブル抽出手法である。
よりコンパクトなテーブル抽出モデルを蒸留し,抽出コストを最小化し,API依存を低減できる可能性を検証する。
- 参考スコア(独自算出の注目度): 18.060956169992792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the question of whether language models (LLMs) can
support cost-efficient information extraction from complex tables. We introduce
schema-driven information extraction, a new task that uses LLMs to transform
tabular data into structured records following a human-authored schema. To
assess various LLM's capabilities on this task, we develop a benchmark composed
of tables from three diverse domains: machine learning papers, chemistry
tables, and webpages. Accompanying the benchmark, we present InstrucTE, a table
extraction method based on instruction-tuned LLMs. This method necessitates
only a human-constructed extraction schema, and incorporates an error-recovery
strategy. Notably, InstrucTE demonstrates competitive performance without
task-specific labels, achieving an F1 score ranging from 72.3 to 95.7.
Moreover, we validate the feasibility of distilling more compact table
extraction models to minimize extraction costs and reduce API reliance. This
study paves the way for the future development of instruction-following models
for cost-efficient table extraction.
- Abstract(参考訳): 本稿では,言語モデル(LLM)が複雑なテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。
本稿では,llmを用いて表データから構造化レコードへの変換を行う新しいタスクであるスキーマ駆動情報抽出を提案する。
このタスクにおける様々なllmの能力を評価するために、我々は機械学習論文、化学表、webページという3つの異なるドメインからなるテーブルからなるベンチマークを開発した。
提案するインストラクテ(Instructe)は,命令調整 LLM に基づくテーブル抽出手法である。
この方法は、人間の構築した抽出スキーマのみを必要とし、エラー回復戦略を組み込む。
特に、Instructeはタスク固有のラベルなしでの競争性能を示し、F1スコアは72.3から95.7までである。
さらに,よりコンパクトなテーブル抽出モデルを蒸留し,抽出コストを最小化し,API依存度を低減できる可能性を検証する。
本研究は,コスト効率のよいテーブル抽出のための命令追従モデルの今後の開発方法について述べる。
関連論文リスト
- Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Large Language Model for Table Processing: A Survey [9.144614058716083]
大規模言語モデル (LLMs) は、学術や産業から大きな利益を得る。
テーブルは通常2次元で、大量のデータを格納するために構成され、データベースクエリやスプレッドシート計算、Webテーブルからのレポート生成といった日々のアクティビティに不可欠である。
この調査は、テーブル質問応答(Table QA)や事実検証といった従来の領域だけでなく、テーブル操作や高度なテーブルデータ分析といった、新たに強調された側面を含む、テーブルタスクの広範な概要を提供する。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing
Semi-structured Data for Large Language Model Reasoning [58.11442663694328]
テーブルプロンプトを生成するための多用途前処理ツールボックスとして,TAP4LLMを提案する。
各モジュールにおいて、様々なシナリオで使用されるいくつかの一般的なメソッドを収集し、設計する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。