論文の概要: Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs
- arxiv url: http://arxiv.org/abs/2406.19102v1
- Date: Thu, 27 Jun 2024 11:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:27:46.510645
- Title: Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs
- Title(参考訳): 文:ESG KPIのための大規模言語モデル付きテーブルからのユニバーサル情報抽出
- Authors: Lokesh Mishra, Sohayl Dhibi, Yusik Kim, Cesar Berrospi Ramis, Shubham Gupta, Michele Dolfi, Peter Staar,
- Abstract要約: 環境、社会、ガバナンス(ESG)は、気候変動などの問題において組織のパフォーマンスを評価する。
ESGレポートは、この貴重な量的情報をテーブルを通して伝達する。
本稿では,量的事実や関連情報を抽出するドメインに依存しない新しいデータ構造であるステートメントを提案する。
- 参考スコア(独自算出の注目度): 18.401579353633807
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Environment, Social, and Governance (ESG) KPIs assess an organization's performance on issues such as climate change, greenhouse gas emissions, water consumption, waste management, human rights, diversity, and policies. ESG reports convey this valuable quantitative information through tables. Unfortunately, extracting this information is difficult due to high variability in the table structure as well as content. We propose Statements, a novel domain agnostic data structure for extracting quantitative facts and related information. We propose translating tables to statements as a new supervised deep-learning universal information extraction task. We introduce SemTabNet - a dataset of over 100K annotated tables. Investigating a family of T5-based Statement Extraction Models, our best model generates statements which are 82% similar to the ground-truth (compared to baseline of 21%). We demonstrate the advantages of statements by applying our model to over 2700 tables from ESG reports. The homogeneous nature of statements permits exploratory data analysis on expansive information found in large collections of ESG reports.
- Abstract(参考訳): 環境、社会、ガバナンス(ESG) KPIは、気候変動、温室効果ガスの排出、水消費、廃棄物管理、人権、多様性、政策などの問題において、組織のパフォーマンスを評価する。
ESGレポートは、この貴重な量的情報をテーブルを通して伝達する。
残念ながら、この情報の抽出は、表構造や内容に高いばらつきがあるため困難である。
本稿では,量的事実や関連情報を抽出するドメインに依存しない新しいデータ構造であるステートメントを提案する。
本稿では,新しい教師付き深層学習情報抽出タスクとして,表をステートメントに翻訳することを提案する。
SemTabNet - 100K以上の注釈付きテーブルのデータセット。
T5をベースとしたステートメント抽出モデルのファミリを調べた結果,最良モデルは82%の文を生成する(ベースラインは21%)。
ESGレポートから2700以上の表に私たちのモデルを適用することで、ステートメントの利点を実証する。
ステートメントの均質性は、ESGレポートの膨大なコレクションに見られる拡張情報に関する探索的データ解析を可能にする。
関連論文リスト
- TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Bridging the Gap: Deciphering Tabular Data Using Large Language Model [4.711941969101732]
この研究は、テーブルベースの質問応答タスクへの大規模言語モデルの初めての応用である。
拡張言語モデルとのシームレスな統合のために,テーブルのシリアライズに特有なモジュールを設計しました。
論文 参考訳(メタデータ) (2023-08-23T03:38:21Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Type-augmented Relation Prediction in Knowledge Graphs [65.88395564516115]
本稿では,タイプ情報とインスタンスレベルの情報の両方を関係予測に適用するタイプ拡張関係予測(TaRP)手法を提案する。
提案手法は,4つのベンチマークデータセット上での最先端手法よりも高い性能を実現する。
論文 参考訳(メタデータ) (2020-09-16T21:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。