論文の概要: Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs
- arxiv url: http://arxiv.org/abs/2406.19102v1
- Date: Thu, 27 Jun 2024 11:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:27:46.510645
- Title: Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs
- Title(参考訳): 文:ESG KPIのための大規模言語モデル付きテーブルからのユニバーサル情報抽出
- Authors: Lokesh Mishra, Sohayl Dhibi, Yusik Kim, Cesar Berrospi Ramis, Shubham Gupta, Michele Dolfi, Peter Staar,
- Abstract要約: 環境、社会、ガバナンス(ESG)は、気候変動などの問題において組織のパフォーマンスを評価する。
ESGレポートは、この貴重な量的情報をテーブルを通して伝達する。
本稿では,量的事実や関連情報を抽出するドメインに依存しない新しいデータ構造であるステートメントを提案する。
- 参考スコア(独自算出の注目度): 18.401579353633807
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Environment, Social, and Governance (ESG) KPIs assess an organization's performance on issues such as climate change, greenhouse gas emissions, water consumption, waste management, human rights, diversity, and policies. ESG reports convey this valuable quantitative information through tables. Unfortunately, extracting this information is difficult due to high variability in the table structure as well as content. We propose Statements, a novel domain agnostic data structure for extracting quantitative facts and related information. We propose translating tables to statements as a new supervised deep-learning universal information extraction task. We introduce SemTabNet - a dataset of over 100K annotated tables. Investigating a family of T5-based Statement Extraction Models, our best model generates statements which are 82% similar to the ground-truth (compared to baseline of 21%). We demonstrate the advantages of statements by applying our model to over 2700 tables from ESG reports. The homogeneous nature of statements permits exploratory data analysis on expansive information found in large collections of ESG reports.
- Abstract(参考訳): 環境、社会、ガバナンス(ESG) KPIは、気候変動、温室効果ガスの排出、水消費、廃棄物管理、人権、多様性、政策などの問題において、組織のパフォーマンスを評価する。
ESGレポートは、この貴重な量的情報をテーブルを通して伝達する。
残念ながら、この情報の抽出は、表構造や内容に高いばらつきがあるため困難である。
本稿では,量的事実や関連情報を抽出するドメインに依存しない新しいデータ構造であるステートメントを提案する。
本稿では,新しい教師付き深層学習情報抽出タスクとして,表をステートメントに翻訳することを提案する。
SemTabNet - 100K以上の注釈付きテーブルのデータセット。
T5をベースとしたステートメント抽出モデルのファミリを調べた結果,最良モデルは82%の文を生成する(ベースラインは21%)。
ESGレポートから2700以上の表に私たちのモデルを適用することで、ステートメントの利点を実証する。
ステートメントの均質性は、ESGレポートの膨大なコレクションに見られる拡張情報に関する探索的データ解析を可能にする。
関連論文リスト
- Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Large Language Model for Table Processing: A Survey [9.144614058716083]
大規模言語モデル (LLMs) は、学術や産業から大きな利益を得る。
テーブルは通常2次元で、大量のデータを格納するために構成され、データベースクエリやスプレッドシート計算、Webテーブルからのレポート生成といった日々のアクティビティに不可欠である。
この調査は、テーブル質問応答(Table QA)や事実検証といった従来の領域だけでなく、テーブル操作や高度なテーブルデータ分析といった、新たに強調された側面を含む、テーブルタスクの広範な概要を提供する。
論文 参考訳(メタデータ) (2024-02-04T00:47:53Z) - Bridging the Gap: Deciphering Tabular Data Using Large Language Model [4.711941969101732]
この研究は、テーブルベースの質問応答タスクへの大規模言語モデルの初めての応用である。
拡張言語モデルとのシームレスな統合のために,テーブルのシリアライズに特有なモジュールを設計しました。
論文 参考訳(メタデータ) (2023-08-23T03:38:21Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Type-augmented Relation Prediction in Knowledge Graphs [65.88395564516115]
本稿では,タイプ情報とインスタンスレベルの情報の両方を関係予測に適用するタイプ拡張関係予測(TaRP)手法を提案する。
提案手法は,4つのベンチマークデータセット上での最先端手法よりも高い性能を実現する。
論文 参考訳(メタデータ) (2020-09-16T21:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。