論文の概要: Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs
- arxiv url: http://arxiv.org/abs/2512.24289v1
- Date: Tue, 30 Dec 2025 15:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.413509
- Title: Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs
- Title(参考訳): 持続可能性レポートの自動分析:EU分類基準付きKPIの抽出と予測に大規模言語モデルを用いた
- Authors: Jonathan Schmoll, Adam Jatowt,
- Abstract要約: 大規模言語モデル(LLM)は自動化への道筋を提供する。
190の企業レポートから,新たな構造化データセットを導入する。
その結果,定性的タスクと量的タスクの間に明らかなパフォーマンスギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 21.656551146954587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The manual, resource-intensive process of complying with the EU Taxonomy presents a significant challenge for companies. While Large Language Models (LLMs) offer a path to automation, research is hindered by a lack of public benchmark datasets. To address this gap, we introduce a novel, structured dataset from 190 corporate reports, containing ground-truth economic activities and quantitative Key Performance Indicators (KPIs). We use this dataset to conduct the first systematic evaluation of LLMs on the core compliance workflow. Our results reveal a clear performance gap between qualitative and quantitative tasks. LLMs show moderate success in the qualitative task of identifying economic activities, with a multi-step agentic framework modestly enhancing precision. Conversely, the models comprehensively fail at the quantitative task of predicting financial KPIs in a zero-shot setting. We also discover a paradox, where concise metadata often yields superior performance to full, unstructured reports, and find that model confidence scores are poorly calibrated. We conclude that while LLMs are not ready for full automation, they can serve as powerful assistive tools for human experts. Our dataset provides a public benchmark for future research.
- Abstract(参考訳): 欧州連合の分類に準拠する手動で資源集約的なプロセスは、企業にとって大きな課題となる。
大規模言語モデル(LLM)は自動化への道筋を提供するが、研究は公開ベンチマークデータセットの欠如によって妨げられている。
このギャップに対処するため、我々は190の企業報告から構築された新しいデータセットを導入し、そこでは、根底的な経済活動と量的キーパフォーマンス指標(KPI)を含む。
このデータセットを用いて、コアコンプライアンスワークフロー上でLLMを初めて体系的に評価する。
その結果,定性的タスクと量的タスクの間に明らかなパフォーマンスギャップが明らかとなった。
LLMは、経済活動を特定する質的なタスクにおいて適度に成功し、多段階のエージェント・フレームワークが適度に精度を高めている。
逆に、モデルはゼロショット設定で財務的なKPIを予測する定量的タスクで包括的に失敗する。
また、簡潔なメタデータが完全かつ非構造化なレポートに優れたパフォーマンスをもたらすことがよくあるパラドックスを発見し、モデルの信頼性スコアが不十分であることを示す。
LLMは完全な自動化の準備ができていないが、人間の専門家のための強力な補助ツールとして機能する、と私たちは結論付けている。
私たちのデータセットは、将来の研究のための公開ベンチマークを提供します。
関連論文リスト
- Benchmarking LLM Agents for Wealth-Management Workflows [0.0]
この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。
本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
論文 参考訳(メタデータ) (2025-12-01T21:56:21Z) - A Comparative Benchmark of Large Language Models for Labelling Wind Turbine Maintenance Logs [0.0]
本稿では,複雑な産業記録を分類する作業において,LLM(Large Language Models)をベンチマークするためのフレームワークを提案する。
透明性を促進し、さらなる研究を促進するため、このフレームワークはオープンソースツールとして公開されている。
明確なパフォーマンス階層を定量化し、ベンチマーク標準と高い整合性を示すトップモデルを特定します。
論文 参考訳(メタデータ) (2025-09-08T15:48:17Z) - Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。
我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。
本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:36:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。