論文の概要: Advanced Unstructured Data Processing for ESG Reports: A Methodology for
Structured Transformation and Enhanced Analysis
- arxiv url: http://arxiv.org/abs/2401.02992v1
- Date: Thu, 4 Jan 2024 06:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:14:26.894650
- Title: Advanced Unstructured Data Processing for ESG Reports: A Methodology for
Structured Transformation and Enhanced Analysis
- Title(参考訳): ESGレポートのための高度な非構造化データ処理:構造化変換の方法論と解析の強化
- Authors: Jiahui Peng, Jing Gao, Xin Tong, Jing Guo, Hang Yang, Jianchuan Qi,
Ruiqiao Li, Nan Li, Ming Xu
- Abstract要約: 本研究では,ESGレポートを構造化解析可能な形式に変換する革新的な手法を提案する。
提案手法は,高精度なテキストクリーニング,画像からのテキストの適切な識別と抽出,およびこれらのレポート内の表の標準化を実現する。
この研究は、産業生態学と企業持続可能性評価の分野に多大な貢献をしている。
- 参考スコア(独自算出の注目度): 20.038120319271773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the evolving field of corporate sustainability, analyzing unstructured
Environmental, Social, and Governance (ESG) reports is a complex challenge due
to their varied formats and intricate content. This study introduces an
innovative methodology utilizing the "Unstructured Core Library", specifically
tailored to address these challenges by transforming ESG reports into
structured, analyzable formats. Our approach significantly advances the
existing research by offering high-precision text cleaning, adept
identification and extraction of text from images, and standardization of
tables within these reports. Emphasizing its capability to handle diverse data
types, including text, images, and tables, the method adeptly manages the
nuances of differing page layouts and report styles across industries. This
research marks a substantial contribution to the fields of industrial ecology
and corporate sustainability assessment, paving the way for the application of
advanced NLP technologies and large language models in the analysis of
corporate governance and sustainability. Our code is available at
https://github.com/linancn/TianGong-AI-Unstructure.git.
- Abstract(参考訳): コーポレートサステナビリティの進展分野において、非構造化環境・社会・ガバナンスレポート(esg)の分析は、その多様なフォーマットと複雑な内容のために複雑な課題である。
本研究では,ESGレポートを構造化解析可能な形式に変換することで,これらの課題に対処するために,"Unstructured Core Library"を活用する革新的な方法論を提案する。
提案手法は, 高精度なテキストクリーニング, 画像からのテキストの識別・抽出, 表の標準化などにより, 既存の研究を著しく進歩させる。
テキスト、画像、テーブルなど、さまざまなデータタイプを扱う能力を強調したこのメソッドは、業界全体で異なるページレイアウトとレポートスタイルのニュアンスを適切に管理する。
本研究は, 産業生態学と企業持続可能性評価の分野に大きく貢献し, コーポレートガバナンスとサステナビリティの分析において, 先進的なNLP技術と大規模言語モデルの適用の道を開いた。
私たちのコードはhttps://github.com/linancn/TianGong-AI-Unstructure.gitで公開されています。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study [4.742245127121496]
Structured-GraphRAGは自然言語クエリにおける構造化データセット間の情報検索を強化するために設計された汎用フレームワークである。
その結果,Structured-GraphRAGはクエリ処理効率を大幅に改善し,応答時間を短縮することがわかった。
論文 参考訳(メタデータ) (2024-09-26T06:53:29Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。
本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。
RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文 参考訳(メタデータ) (2024-04-17T01:27:42Z) - Visual Analytics for Fine-grained Text Classification Models and Datasets [3.6873612681664016]
SemLaは、きめ細かいテキスト分類に適した、新しいビジュアル分析システムである。
本稿では,SemLaにおける反復設計研究と結果のイノベーションについて述べる。
論文 参考訳(メタデータ) (2024-03-21T17:26:28Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z) - Cognitive Computing to Optimize IT Services [0.0]
認知的ソリューションは、構造化されたテキストと非構造化されたテキストの両方の深い分析によって、従来の構造化されたデータ分析を越えている。
実験では,提案手法により年額チケットの18~25%を削減した。
論文 参考訳(メタデータ) (2021-12-28T09:56:44Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。