Fugu-MT 論文翻訳(概要): Schema-Driven Information Extraction from Heterogeneous Tables

論文の概要: Schema-Driven Information Extraction from Heterogeneous Tables

arxiv url: http://arxiv.org/abs/2305.14336v1
Date: Tue, 23 May 2023 17:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 13:27:09.487646
Title: Schema-Driven Information Extraction from Heterogeneous Tables
Title（参考訳）: 不均一テーブルからのスキーマ駆動情報抽出
Authors: Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Alan Ritter
Abstract要約: 我々は、機械学習論文、化学表、Webページという3つの分野のテーブルからなるベンチマークを開発する。提案するインストラクテ(Instructe)は,命令調整 LLM に基づくテーブル抽出手法である。よりコンパクトなテーブル抽出モデルを蒸留し,抽出コストを最小化し,API依存を低減できる可能性を検証する。
参考スコア（独自算出の注目度）: 18.060956169992792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we explore the question of whether language models (LLMs) can support cost-efficient information extraction from complex tables. We introduce schema-driven information extraction, a new task that uses LLMs to transform tabular data into structured records following a human-authored schema. To assess various LLM's capabilities on this task, we develop a benchmark composed of tables from three diverse domains: machine learning papers, chemistry tables, and webpages. Accompanying the benchmark, we present InstrucTE, a table extraction method based on instruction-tuned LLMs. This method necessitates only a human-constructed extraction schema, and incorporates an error-recovery strategy. Notably, InstrucTE demonstrates competitive performance without task-specific labels, achieving an F1 score ranging from 72.3 to 95.7. Moreover, we validate the feasibility of distilling more compact table extraction models to minimize extraction costs and reduce API reliance. This study paves the way for the future development of instruction-following models for cost-efficient table extraction.
Abstract（参考訳）: 本稿では,言語モデル(LLM)が複雑なテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。本稿では,llmを用いて表データから構造化レコードへの変換を行う新しいタスクであるスキーマ駆動情報抽出を提案する。このタスクにおける様々なllmの能力を評価するために、我々は機械学習論文、化学表、webページという3つの異なるドメインからなるテーブルからなるベンチマークを開発した。提案するインストラクテ(Instructe)は,命令調整 LLM に基づくテーブル抽出手法である。この方法は、人間の構築した抽出スキーマのみを必要とし、エラー回復戦略を組み込む。特に、Instructeはタスク固有のラベルなしでの競争性能を示し、F1スコアは72.3から95.7までである。さらに,よりコンパクトなテーブル抽出モデルを蒸留し,抽出コストを最小化し,API依存度を低減できる可能性を検証する。本研究は,コスト効率のよいテーブル抽出のための命令追従モデルの今後の開発方法について述べる。

関連論文リスト

Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
TalentMine: LLM-Based Extraction and Question-Answering from Multimodal Talent Tables [5.365164774382722]
本稿では,抽出したテーブルを意味豊かな表現に変換する新しいフレームワークであるTalentMineを紹介する。 TalentMineは、標準のAWS Textract抽出の0%に対して、クエリ応答タスクの100%の精度を実現している。比較分析の結果,Claude v3 Haikuモデルが人材管理アプリケーションに最適なパフォーマンスを実現することが明らかとなった。
論文参考訳（メタデータ） (2025-06-22T22:17:42Z)
Taxonomy Inference for Tabular Data Using Large Language Models [31.121233193993906]
本稿では,表に対する分類的推論法として, (i) EmTT, (ii) GeTT, (ii) GPT-4 のようなデコーダ・アローン LLM を用いてテーブルエンティティの型と階層を生成する。
論文参考訳（メタデータ） (2025-03-25T16:26:05Z)
Better Think with Tables: Tabular Structures Enhance LLM Comprehension for Data-Analytics Requests [33.471112091886894]
大規模言語モデル(LLM)は、情報検索やデータ操作に関連するデータ分析要求に悩まされることが多い。我々は、データ分析要求のために表構造をLCMに注入するThinking with Tablesを紹介した。テーブルを提供すると平均的なパフォーマンスが40.29パーセント向上し、操作性やトークン効率が向上することを示す。
論文参考訳（メタデータ） (2024-12-22T23:31:03Z)
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction [1.0624606551524207]
既存のデータセットは、大量の学術論文のために科学的な表にフォーカスすることが多い。現在のデータセットは、しばしば表に含まれる単語とその位置を欠いている。 SynFinTabsは、大規模にラベル付けされた合成財務表のデータセットである。
論文参考訳（メタデータ） (2024-12-05T15:42:59Z)
ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。 ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文参考訳（メタデータ） (2024-10-25T18:31:50Z)
Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文参考訳（メタデータ） (2024-06-06T14:30:59Z)
Wiki-TabNER:Advancing Table Interpretation Through Named Entity Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T15:22:07Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。 1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文参考訳（メタデータ） (2023-12-14T15:37:04Z)
HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。 FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文参考訳（メタデータ） (2023-11-15T12:02:52Z)
All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文参考訳（メタデータ） (2023-11-14T14:22:47Z)
QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-23T17:43:51Z)
A Graph Representation of Semi-structured Data for Web Question Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文参考訳（メタデータ） (2020-10-14T04:01:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。