Fugu-MT 論文翻訳(概要): Advanced Unstructured Data Processing for ESG Reports: A Methodology for Structured Transformation and Enhanced Analysis

論文の概要: Advanced Unstructured Data Processing for ESG Reports: A Methodology for Structured Transformation and Enhanced Analysis

arxiv url: http://arxiv.org/abs/2401.02992v1
Date: Thu, 4 Jan 2024 06:26:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 21:14:26.894650
Title: Advanced Unstructured Data Processing for ESG Reports: A Methodology for Structured Transformation and Enhanced Analysis
Title（参考訳）: ESGレポートのための高度な非構造化データ処理:構造化変換の方法論と解析の強化
Authors: Jiahui Peng, Jing Gao, Xin Tong, Jing Guo, Hang Yang, Jianchuan Qi, Ruiqiao Li, Nan Li, Ming Xu
Abstract要約: 本研究では,ESGレポートを構造化解析可能な形式に変換する革新的な手法を提案する。提案手法は,高精度なテキストクリーニング,画像からのテキストの適切な識別と抽出,およびこれらのレポート内の表の標準化を実現する。この研究は、産業生態学と企業持続可能性評価の分野に多大な貢献をしている。
参考スコア（独自算出の注目度）: 20.038120319271773
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the evolving field of corporate sustainability, analyzing unstructured Environmental, Social, and Governance (ESG) reports is a complex challenge due to their varied formats and intricate content. This study introduces an innovative methodology utilizing the "Unstructured Core Library", specifically tailored to address these challenges by transforming ESG reports into structured, analyzable formats. Our approach significantly advances the existing research by offering high-precision text cleaning, adept identification and extraction of text from images, and standardization of tables within these reports. Emphasizing its capability to handle diverse data types, including text, images, and tables, the method adeptly manages the nuances of differing page layouts and report styles across industries. This research marks a substantial contribution to the fields of industrial ecology and corporate sustainability assessment, paving the way for the application of advanced NLP technologies and large language models in the analysis of corporate governance and sustainability. Our code is available at https://github.com/linancn/TianGong-AI-Unstructure.git.
Abstract（参考訳）: コーポレートサステナビリティの進展分野において、非構造化環境・社会・ガバナンスレポート(esg)の分析は、その多様なフォーマットと複雑な内容のために複雑な課題である。本研究では,ESGレポートを構造化解析可能な形式に変換することで,これらの課題に対処するために,"Unstructured Core Library"を活用する革新的な方法論を提案する。提案手法は, 高精度なテキストクリーニング, 画像からのテキストの識別・抽出, 表の標準化などにより, 既存の研究を著しく進歩させる。テキスト、画像、テーブルなど、さまざまなデータタイプを扱う能力を強調したこのメソッドは、業界全体で異なるページレイアウトとレポートスタイルのニュアンスを適切に管理する。本研究は, 産業生態学と企業持続可能性評価の分野に大きく貢献し, コーポレートガバナンスとサステナビリティの分析において, 先進的なNLP技術と大規模言語モデルの適用の道を開いた。私たちのコードはhttps://github.com/linancn/TianGong-AI-Unstructure.gitで公開されています。

関連論文リスト

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
Comparative Analysis of Neural Retriever-Reranker Pipelines for Retrieval-Augmented Generation over Knowledge Graphs in E-commerce Applications [0.0]
Retrieval-Augmented Generation (RAG) は、現実の正確さと文脈の基盤を強化する重要なイノベーションとして登場した。クロスエンコーダは検索精度を洗練させるが、構造化データとの統合は未定である。本研究では,eコマースコンテキストにおける知識グラフ自然言語クエリのための複数のRetriever-Rerankerパイプラインの設計と比較評価を行う。
論文参考訳（メタデータ） (2025-12-14T23:47:40Z)
Ontology-Based Knowledge Graph Framework for Industrial Standard Documents via Hierarchical and Propositional Structuring [8.759087891756069]
オントロジーに基づく知識グラフ(KG)構築は、ドメイン知識に対する多次元的理解と高度な推論を可能にする中核技術である。本研究では,このような文書を階層的な意味構造に整理する手法を提案する。我々の手法は文書の階層構造と論理構造の両方を捉え、ドメイン固有の意味論を効果的に表現する。
論文参考訳（メタデータ） (2025-12-09T09:26:37Z)
FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。 2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文参考訳（メタデータ） (2025-10-19T14:05:35Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文参考訳（メタデータ） (2025-10-03T08:50:21Z)
Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文参考訳（メタデータ） (2025-06-19T07:16:18Z)
Graph Foundation Models: A Comprehensive Survey [66.74249119139661]
Graph Foundation Models (GFMs)は、構造化データにスケーラブルで汎用的なインテリジェンスを提供することを目指している。この調査は、GFMの概要を包括的に提供し、モジュラーフレームワークの下での多様な取り組みを統合する。 GFMは構造化データに対するオープンエンド推論の基盤となる。
論文参考訳（メタデータ） (2025-05-21T05:08:00Z)
A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文参考訳（メタデータ） (2025-03-08T05:41:42Z)
Optimizing Large Language Models for ESG Activity Detection in Financial Texts [0.7373617024876725]
本稿では,環境活動に関連するテキストを識別する次世代大規模言語モデルについて検討する。 ESG-ActivitiesはEUのESG分類に従って分類された1,325のラベル付きテキストセグメントを含むベンチマークデータセットである。実験の結果,ESG-Activitiesの微調整は分類精度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-02-28T14:52:25Z)
Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation [56.82274763974443]
ICATは、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである。原子の事実的クレームと出力で提示されるであろう様々な側面のアライメントを計算する。私たちのフレームワークは、多様性とカバレッジの解釈可能かつきめ細かな分析を提供します。
論文参考訳（メタデータ） (2025-01-07T05:43:23Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study [4.742245127121496]
Structured-GraphRAGは自然言語クエリにおける構造化データセット間の情報検索を強化するために設計された汎用フレームワークである。その結果,Structured-GraphRAGはクエリ処理効率を大幅に改善し,応答時間を短縮することがわかった。
論文参考訳（メタデータ） (2024-09-26T06:53:29Z)
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できるこの研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文参考訳（メタデータ） (2024-07-17T20:01:21Z)
A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。 RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文参考訳（メタデータ） (2024-04-17T01:27:42Z)
Visual Analytics for Fine-grained Text Classification Models and Datasets [3.6873612681664016]
SemLaは、きめ細かいテキスト分類に適した、新しいビジュアル分析システムである。本稿では,SemLaにおける反復設計研究と結果のイノベーションについて述べる。
論文参考訳（メタデータ） (2024-03-21T17:26:28Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文参考訳（メタデータ） (2023-12-12T22:27:29Z)
Cognitive Computing to Optimize IT Services [0.0]
認知的ソリューションは、構造化されたテキストと非構造化されたテキストの両方の深い分析によって、従来の構造化されたデータ分析を越えている。実験では,提案手法により年額チケットの18～25%を削減した。
論文参考訳（メタデータ） (2021-12-28T09:56:44Z)
A Dependency Syntactic Knowledge Augmented Interactive Architecture for End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。 3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2020-04-04T14:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。