論文の概要: Advanced Unstructured Data Processing for ESG Reports: A Methodology for
Structured Transformation and Enhanced Analysis
- arxiv url: http://arxiv.org/abs/2401.02992v1
- Date: Thu, 4 Jan 2024 06:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:14:26.894650
- Title: Advanced Unstructured Data Processing for ESG Reports: A Methodology for
Structured Transformation and Enhanced Analysis
- Title(参考訳): ESGレポートのための高度な非構造化データ処理:構造化変換の方法論と解析の強化
- Authors: Jiahui Peng, Jing Gao, Xin Tong, Jing Guo, Hang Yang, Jianchuan Qi,
Ruiqiao Li, Nan Li, Ming Xu
- Abstract要約: 本研究では,ESGレポートを構造化解析可能な形式に変換する革新的な手法を提案する。
提案手法は,高精度なテキストクリーニング,画像からのテキストの適切な識別と抽出,およびこれらのレポート内の表の標準化を実現する。
この研究は、産業生態学と企業持続可能性評価の分野に多大な貢献をしている。
- 参考スコア(独自算出の注目度): 20.038120319271773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the evolving field of corporate sustainability, analyzing unstructured
Environmental, Social, and Governance (ESG) reports is a complex challenge due
to their varied formats and intricate content. This study introduces an
innovative methodology utilizing the "Unstructured Core Library", specifically
tailored to address these challenges by transforming ESG reports into
structured, analyzable formats. Our approach significantly advances the
existing research by offering high-precision text cleaning, adept
identification and extraction of text from images, and standardization of
tables within these reports. Emphasizing its capability to handle diverse data
types, including text, images, and tables, the method adeptly manages the
nuances of differing page layouts and report styles across industries. This
research marks a substantial contribution to the fields of industrial ecology
and corporate sustainability assessment, paving the way for the application of
advanced NLP technologies and large language models in the analysis of
corporate governance and sustainability. Our code is available at
https://github.com/linancn/TianGong-AI-Unstructure.git.
- Abstract(参考訳): コーポレートサステナビリティの進展分野において、非構造化環境・社会・ガバナンスレポート(esg)の分析は、その多様なフォーマットと複雑な内容のために複雑な課題である。
本研究では,ESGレポートを構造化解析可能な形式に変換することで,これらの課題に対処するために,"Unstructured Core Library"を活用する革新的な方法論を提案する。
提案手法は, 高精度なテキストクリーニング, 画像からのテキストの識別・抽出, 表の標準化などにより, 既存の研究を著しく進歩させる。
テキスト、画像、テーブルなど、さまざまなデータタイプを扱う能力を強調したこのメソッドは、業界全体で異なるページレイアウトとレポートスタイルのニュアンスを適切に管理する。
本研究は, 産業生態学と企業持続可能性評価の分野に大きく貢献し, コーポレートガバナンスとサステナビリティの分析において, 先進的なNLP技術と大規模言語モデルの適用の道を開いた。
私たちのコードはhttps://github.com/linancn/TianGong-AI-Unstructure.gitで公開されています。
関連論文リスト
- Generative AI in the Construction Industry: A State-of-the-art Analysis [0.4241054493737716]
建設業界における生成AIの現状、機会、課題に関する文献のギャップがある。
本研究は, 建設産業における既存の, 新興のジェネレーティブAIの機会と課題をレビューし, 分類することを目的とする。
建設会社が独自のデータを使ってカスタマイズされた生成AIソリューションを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-15T13:39:55Z) - Structured Entity Extraction Using Large Language Models [54.53348483973769]
大規模言語モデル(LLM)は、構造化されていないテキストから構造化された情報を抽出する上で重要な役割を果たす。
本稿では,構造化エンティティ抽出における現行手法の課題と限界について考察する。
本研究では,LLMのパワーを有効・効率的に活用する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [19.139461618363605]
大きな言語モデル(LLM)は重要な能力を示すが、幻覚、時代遅れの知識、不透明で追跡不能な推論プロセスといった課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z) - Glitter or Gold? Deriving Structured Insights from Sustainability
Reports via Large Language Models [16.231171704561714]
本研究では,企業のサステナビリティレポートからESGに関する構造化された洞察を抽出するために,情報抽出(IE)手法を用いる。
次に、グラフに基づく表現を活用して、抽出された洞察に関する統計的分析を行う。
論文 参考訳(メタデータ) (2023-10-09T11:34:41Z) - Faithfulness in Natural Language Generation: A Systematic Survey of
Analysis, Evaluation and Optimization Methods [48.47413103662829]
自然言語生成(NLG)は,事前学習型言語モデルなどの深層学習技術の発展により,近年大きく進歩している。
しかし、生成したテキストが通常不信または非実情報を含むという忠実性問題は、最大の課題となっている。
論文 参考訳(メタデータ) (2022-03-10T08:28:32Z) - Cognitive Computing to Optimize IT Services [0.0]
認知的ソリューションは、構造化されたテキストと非構造化されたテキストの両方の深い分析によって、従来の構造化されたデータ分析を越えている。
実験では,提案手法により年額チケットの18~25%を削減した。
論文 参考訳(メタデータ) (2021-12-28T09:56:44Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。