Fugu-MT 論文翻訳(概要): Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs

論文の概要: Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs

arxiv url: http://arxiv.org/abs/2512.24289v1
Date: Tue, 30 Dec 2025 15:28:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-01 23:27:28.413509
Title: Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs
Title（参考訳）: 持続可能性レポートの自動分析:EU分類基準付きKPIの抽出と予測に大規模言語モデルを用いた
Authors: Jonathan Schmoll, Adam Jatowt,
Abstract要約: 大規模言語モデル(LLM)は自動化への道筋を提供する。 190の企業レポートから,新たな構造化データセットを導入する。その結果,定性的タスクと量的タスクの間に明らかなパフォーマンスギャップが明らかとなった。
参考スコア（独自算出の注目度）: 21.656551146954587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The manual, resource-intensive process of complying with the EU Taxonomy presents a significant challenge for companies. While Large Language Models (LLMs) offer a path to automation, research is hindered by a lack of public benchmark datasets. To address this gap, we introduce a novel, structured dataset from 190 corporate reports, containing ground-truth economic activities and quantitative Key Performance Indicators (KPIs). We use this dataset to conduct the first systematic evaluation of LLMs on the core compliance workflow. Our results reveal a clear performance gap between qualitative and quantitative tasks. LLMs show moderate success in the qualitative task of identifying economic activities, with a multi-step agentic framework modestly enhancing precision. Conversely, the models comprehensively fail at the quantitative task of predicting financial KPIs in a zero-shot setting. We also discover a paradox, where concise metadata often yields superior performance to full, unstructured reports, and find that model confidence scores are poorly calibrated. We conclude that while LLMs are not ready for full automation, they can serve as powerful assistive tools for human experts. Our dataset provides a public benchmark for future research.
Abstract（参考訳）: 欧州連合の分類に準拠する手動で資源集約的なプロセスは、企業にとって大きな課題となる。大規模言語モデル(LLM)は自動化への道筋を提供するが、研究は公開ベンチマークデータセットの欠如によって妨げられている。このギャップに対処するため、我々は190の企業報告から構築された新しいデータセットを導入し、そこでは、根底的な経済活動と量的キーパフォーマンス指標(KPI)を含む。このデータセットを用いて、コアコンプライアンスワークフロー上でLLMを初めて体系的に評価する。その結果,定性的タスクと量的タスクの間に明らかなパフォーマンスギャップが明らかとなった。 LLMは、経済活動を特定する質的なタスクにおいて適度に成功し、多段階のエージェント・フレームワークが適度に精度を高めている。逆に、モデルはゼロショット設定で財務的なKPIを予測する定量的タスクで包括的に失敗する。また、簡潔なメタデータが完全かつ非構造化なレポートに優れたパフォーマンスをもたらすことがよくあるパラドックスを発見し、モデルの信頼性スコアが不十分であることを示す。 LLMは完全な自動化の準備ができていないが、人間の専門家のための強力な補助ツールとして機能する、と私たちは結論付けている。私たちのデータセットは、将来の研究のための公開ベンチマークを提供します。

関連論文リスト

Benchmarking LLM Agents for Wealth-Management Workflows [0.0]
この論文はTheAgentCompanyを金融に焦点を当てた環境に拡張している。本研究は、汎用LLMエージェントが、精密かつ経済的に代表的富管理タスクを完了できるかどうかを調査する。
論文参考訳（メタデータ） (2025-12-01T21:56:21Z)
How AI Forecasts AI Jobs: Benchmarking LLM Predictions of Labor Market Changes [5.848712585343904]
本稿では,大規模言語モデル(LLM)が仕事需要の変化をどの程度予測できるかを評価するためのベンチマークを紹介する。当社のベンチマークでは、米国におけるセクターレベルの求職率の高頻度指標と、AIの採用による職業変化のグローバルデータセットの2つのデータセットを組み合わせています。その結果、構造化タスクは予測安定性を継続的に改善し、ペルソナプロンプトは短期的な傾向に有利であることがわかった。
論文参考訳（メタデータ） (2025-10-27T14:08:27Z)
A Comparative Benchmark of Large Language Models for Labelling Wind Turbine Maintenance Logs [0.0]
本稿では,複雑な産業記録を分類する作業において,LLM(Large Language Models)をベンチマークするためのフレームワークを提案する。透明性を促進し、さらなる研究を促進するため、このフレームワークはオープンソースツールとして公開されている。明確なパフォーマンス階層を定量化し、ベンチマーク標準と高い整合性を示すトップモデルを特定します。
論文参考訳（メタデータ） (2025-09-08T15:48:17Z)
Quantifying Qualitative Insights: Leveraging LLMs to Market Predict [0.0]
本研究は、証券会社からの日々の報告を活用して高品質な文脈情報を作成することによる課題に対処する。レポートはテキストベースのキーファクタにセグメント化され、価格情報などの数値データと組み合わせてコンテキストセットを形成する。工芸的なプロンプトは重要な要素にスコアを割り当て、質的な洞察を定量的な結果に変換するように設計されている。
論文参考訳（メタデータ） (2024-11-13T07:45:40Z)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-11T10:36:04Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。