Fugu-MT 論文翻訳(概要): ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

論文の概要: ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

arxiv url: http://arxiv.org/abs/2506.01646v1
Date: Mon, 02 Jun 2025 13:19:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.398121
Title: ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge
Title（参考訳）: ESGenius:環境・社会・ガバナンス(ESG)と持続可能性知識に関するLLMのベンチマーク
Authors: Chaoyue He, Xin Zhou, Yi Wu, Xinjia Yu, Yan Zhang, Lei Zhang, Di Wang, Shengfei Lyu, Hong Xu, Xiaoqiao Wang, Wei Liu, Chunyan Miao,
Abstract要約: ESGeniusは、環境・社会・ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のためのベンチマークである。 ESGeniusはESGenius-QAとESGenius-Corpusの2つの重要なコンポーネントから構成される。
参考スコア（独自算出の注目度）: 53.18163869901266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce ESGenius, a comprehensive benchmark for evaluating and enhancing the proficiency of Large Language Models (LLMs) in Environmental, Social and Governance (ESG) and sustainability-focused question answering. ESGenius comprises two key components: (i) ESGenius-QA, a collection of 1 136 multiple-choice questions generated by LLMs and rigorously validated by domain experts, covering a broad range of ESG pillars and sustainability topics. Each question is systematically linked to its corresponding source text, enabling transparent evaluation and supporting retrieval-augmented generation (RAG) methods; and (ii) ESGenius-Corpus, a meticulously curated repository of 231 foundational frameworks, standards, reports and recommendation documents from seven authoritative sources. Moreover, to fully assess the capabilities and adaptation potential of the model, we implement a rigorous two-stage evaluation protocol -- Zero-Shot and RAG. Extensive experiments across 50 LLMs (ranging from 0.5 B to 671 B parameters) demonstrate that state-of-the-art models achieve only moderate performance in zero-shot settings, with accuracies typically around 55--70\%, highlighting ESGenius's challenging nature for LLMs in interdisciplinary contexts. However, models employing RAG show significant performance improvements, particularly for smaller models. For example, "DeepSeek-R1-Distill-Qwen-14B" improves from 63.82\% (zero-shot) to 80.46\% with RAG. These results underscore the necessity of grounding responses in authoritative sources for enhanced ESG understanding. To the best of our knowledge, ESGenius is the first benchmark curated for LLMs and the relevant enhancement technologies that focuses on ESG and sustainability topics.
Abstract（参考訳）: 本研究では,環境・社会・ガバナンス(ESG)と持続可能性に着目した質問応答において,大規模言語モデル(LLM)の熟練度を評価するための総合ベンチマークであるESGeniusを紹介する。 ESGeniusは2つの重要なコンポーネントから構成される。 (i)ESGenius-QAは、LLMが生成し、ドメインの専門家が厳格に検証した1,136の多重選択質問の集合であり、広範囲のESG柱とサステナビリティトピックをカバーしている。各質問は、対応するソーステキストに体系的にリンクされ、透過的な評価と検索拡張生成(RAG)メソッドのサポートを可能にします。 (ii)ESGenius-Corpusは、7つの権威ソースから231の基盤フレームワーク、標準、レポート、レコメンデーションドキュメントを厳密にキュレートしたリポジトリである。さらに,モデルの性能と適応可能性を完全に評価するために,Zero-ShotとRAGという厳密な2段階評価プロトコルを実装した。 50 LLM(0.5 B から 671 B のパラメータ)にわたる大規模な実験では、最先端のモデルはゼロショット設定でのみ適度なパフォーマンスを達成し、通常は55-70 %程度のアキュラシズムを達成し、学際的な文脈における LLM に対するESGenius の挑戦的な性質を強調している。しかし、RAGを用いたモデルでは特に小型モデルでは大幅な性能向上が見られた。例えば、「DeepSeek-R1-Distill-Qwen-14B」は63.82\%(ゼロショット)から80.46\%に改善されている。これらの結果から,ESGの理解を深めるためには,権威的情報源における接地応答の必要性が浮き彫りになった。我々の知る限り、ESGeniusはLSMとESGと持続可能性のトピックに焦点を当てた関連する拡張技術のための最初のベンチマークです。

関連論文リスト

GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文参考訳（メタデータ） (2025-02-20T17:05:58Z)
AI Predicts AGI: Leveraging AGI Forecasting and Peer Review to Explore LLMs' Complex Reasoning Capabilities [0.3428444467046466]
2030年までに出現するAI(Artificial General Intelligence, AGI)の可能性を推定し, 最先端の大規模言語モデル16を課題とした。これらの予測の質を評価するために,自動ピアレビュープロセス(LLM-PR)を実装した。
論文参考訳（メタデータ） (2024-12-12T15:52:41Z)
SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。 SFR-RAG(SFR-RAG)について述べる。また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文参考訳（メタデータ） (2024-09-16T01:08:18Z)
Measuring Sustainability Intention of ESG Fund Disclosure using Few-Shot Learning [1.1957520154275776]
本稿では,持続可能な宇宙におけるファンド予測を分類し,評価するためのユニークな方法とシステムを提案する。我々は、特定の、曖昧で、持続可能な投資関連言語を特定するために、数発の学習者を採用しています。本研究では,商品のランク付けとサステナビリティ・クレームの定量化のために,言語スコアと評価を判定する比率尺度を構築した。
論文参考訳（メタデータ） (2024-07-09T14:25:23Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning [17.83428132220955]
Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という事前検索フレームワークを提案する。 PG-RAGは、LLMを学生として、豊富な原材料を提供することで概念化している。 PG-RAGは、検索フェーズの間、ノートをめくると人間の行動を模倣する。
論文参考訳（メタデータ） (2024-05-27T08:26:45Z)
ESGReveal: An LLM-based approach for extracting structured data from ESG reports [5.467389155759699]
ESGRevealは企業報告から環境・社会・ガバナンス(ESG)データを効率的に抽出・分析するための革新的な手法である。このアプローチは、検索拡張生成(RAG)技術で強化されたLarge Language Models (LLM)を利用する。この効果は、2022年に香港証券取引所に上場した様々な分野の166社のESGレポートを用いて評価された。
論文参考訳（メタデータ） (2023-12-25T06:44:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。