論文の概要: ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge
- arxiv url: http://arxiv.org/abs/2506.01646v2
- Date: Fri, 19 Sep 2025 20:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.253235
- Title: ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge
- Title(参考訳): ESGenius:環境・社会・ガバナンス(ESG)と持続可能性知識に関するLLMのベンチマーク
- Authors: Chaoyue He, Xin Zhou, Yi Wu, Xinjia Yu, Yan Zhang, Lei Zhang, Di Wang, Shengfei Lyu, Hong Xu, Xiaoqiao Wang, Wei Liu, Chunyan Miao,
- Abstract要約: ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。
ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
- 参考スコア(独自算出の注目度): 40.49917730563565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ESGenius, a comprehensive benchmark for evaluating and enhancing the proficiency of Large Language Models (LLMs) in Environmental, Social, and Governance (ESG) and sustainability-focused question answering. ESGenius comprises two key components: (i) ESGenius-QA, a collection of 1,136 Multiple-Choice Questions (MCQs) generated by LLMs and rigorously validated by domain experts, covering a broad range of ESG pillars and sustainability topics. Each question is systematically linked to its corresponding source text, enabling transparent evaluation and supporting Retrieval-Augmented Generation (RAG) methods; and (ii) ESGenius-Corpus, a meticulously curated repository of 231 foundational frameworks, standards, reports, and recommendation documents from 7 authoritative sources. Moreover, to fully assess the capabilities and adaptation potential of LLMs, we implement a rigorous two-stage evaluation protocol -- Zero-Shot and RAG. Extensive experiments across 50 LLMs (0.5B to 671B) demonstrate that state-of-the-art models achieve only moderate performance in zero-shot settings, with accuracies around 55--70%, highlighting a significant knowledge gap for LLMs in this specialized, interdisciplinary domain. However, models employing RAG demonstrate significant performance improvements, particularly for smaller models. For example, DeepSeek-R1-Distill-Qwen-14B improves from 63.82% (zero-shot) to 80.46% with RAG. These results demonstrate the necessity of grounding responses in authoritative sources for enhanced ESG understanding. To the best of our knowledge, ESGenius is the first comprehensive QA benchmark designed to rigorously evaluate LLMs on ESG and sustainability knowledge, providing a critical tool to advance trustworthy AI in this vital domain.
- Abstract(参考訳): 本研究では,環境,社会,ガバナンス(ESG)および持続可能性に着目した質問応答において,大規模言語モデル(LLM)の習熟度を評価するための総合的なベンチマークであるESGeniusを紹介する。
ESGeniusは2つの重要なコンポーネントから構成される。
(i) ESGenius-QAは、LLMが生成し、ドメインの専門家が厳格に検証した1,136件のMultiple-Choice Questions(MCQ)のコレクションで、幅広いESG柱とサステナビリティトピックをカバーしている。
各質問は、その対応するソーステキストに体系的にリンクされ、透過的な評価とRetrieval-Augmented Generation(RAG)メソッドのサポートを可能にします。
(ii)ESGenius-Corpusは、7つの権威ソースから231の基盤フレームワーク、標準、レポート、レコメンデーションドキュメントを厳密にキュレートしたリポジトリである。
さらに,LLMの能力と適応能力を十分に評価するために,Zero-ShotとRAGという厳密な2段階評価プロトコルを実装した。
50 LLM(0.5Bから671B)にわたる広範囲な実験により、最先端のモデルはゼロショット設定でのみ適度な性能を達成し、55-70%の精度を持つことが示され、この専門分野におけるLLMにとって重要な知識ギャップが浮かび上がっている。
しかしながら、RAGを用いたモデルでは、特に小型モデルでは、大幅な性能向上が見られた。
例えば、DeepSeek-R1-Distill-Qwen-14Bは63.82%(ゼロショット)から80.46%に改善されている。
これらの結果から,ESGの理解を深めるためには,権威的情報源の接地応答の必要性が示唆された。
我々の知識を最大限に活用するために、ESGeniusはESGと持続可能性に関する知識に基づいてLSMを厳格に評価するために設計された最初の総合的なQAベンチマークである。
関連論文リスト
- GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - AI Predicts AGI: Leveraging AGI Forecasting and Peer Review to Explore LLMs' Complex Reasoning Capabilities [0.3428444467046466]
2030年までに出現するAI(Artificial General Intelligence, AGI)の可能性を推定し, 最先端の大規模言語モデル16を課題とした。
これらの予測の質を評価するために,自動ピアレビュープロセス(LLM-PR)を実装した。
論文 参考訳(メタデータ) (2024-12-12T15:52:41Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Measuring Sustainability Intention of ESG Fund Disclosure using Few-Shot Learning [1.1957520154275776]
本稿では,持続可能な宇宙におけるファンド予測を分類し,評価するためのユニークな方法とシステムを提案する。
我々は、特定の、曖昧で、持続可能な投資関連言語を特定するために、数発の学習者を採用しています。
本研究では,商品のランク付けとサステナビリティ・クレームの定量化のために,言語スコアと評価を判定する比率尺度を構築した。
論文 参考訳(メタデータ) (2024-07-09T14:25:23Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning [17.83428132220955]
Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という事前検索フレームワークを提案する。
PG-RAGは、LLMを学生として、豊富な原材料を提供することで概念化している。
PG-RAGは、検索フェーズの間、ノートをめくると人間の行動を模倣する。
論文 参考訳(メタデータ) (2024-05-27T08:26:45Z) - ESGReveal: An LLM-based approach for extracting structured data from ESG
reports [5.467389155759699]
ESGRevealは企業報告から環境・社会・ガバナンス(ESG)データを効率的に抽出・分析するための革新的な手法である。
このアプローチは、検索拡張生成(RAG)技術で強化されたLarge Language Models (LLM)を利用する。
この効果は、2022年に香港証券取引所に上場した様々な分野の166社のESGレポートを用いて評価された。
論文 参考訳(メタデータ) (2023-12-25T06:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。