論文の概要: ESGBench: A Benchmark for Explainable ESG Question Answering in Corporate Sustainability Reports
- arxiv url: http://arxiv.org/abs/2511.16438v1
- Date: Thu, 20 Nov 2025 15:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.687243
- Title: ESGBench: A Benchmark for Explainable ESG Question Answering in Corporate Sustainability Reports
- Title(参考訳): ESGBench: 企業サステナビリティレポートにおける説明可能なESG質問回答のベンチマーク
- Authors: Sherine George, Nithish Saji,
- Abstract要約: 本稿では,ESG質問応答システムの評価を目的としたベンチマークデータセットと評価フレームワークであるESGBenchを提案する。
このベンチマークは、複数のESGテーマにまたがるドメイン地上の質問から成り、人間による回答と組み合わせられ、証拠を裏付ける。
ESGBench 上での最先端 LLM の性能を解析し,現実の一貫性,トレーサビリティ,ドメインアライメントといった重要な課題を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ESGBench, a benchmark dataset and evaluation framework designed to assess explainable ESG question answering systems using corporate sustainability reports. The benchmark consists of domain-grounded questions across multiple ESG themes, paired with human-curated answers and supporting evidence to enable fine-grained evaluation of model reasoning. We analyze the performance of state-of-the-art LLMs on ESGBench, highlighting key challenges in factual consistency, traceability, and domain alignment. ESGBench aims to accelerate research in transparent and accountable ESG-focused AI systems.
- Abstract(参考訳): 企業サステナビリティレポートを用いたESG質問応答システムの評価を目的とした,ベンチマークデータセットと評価フレームワークであるESGBenchを提案する。
このベンチマークは、複数のESGテーマにまたがるドメイングラウンドの質問で構成され、人間の計算された回答と組み合わせ、モデル推論のきめ細かい評価を可能にする証拠をサポートする。
ESGBench 上での最先端 LLM の性能を解析し,現実の一貫性,トレーサビリティ,ドメインアライメントといった重要な課題を強調した。
ESGBenchは、透明で説明可能なESGにフォーカスしたAIシステムの研究を加速することを目的としている。
関連論文リスト
- LiveRAG: A diverse Q&A dataset with varying difficulty level for RAG evaluation [12.341210252539776]
我々は、RAGベースのQ&Aシステムの体系的評価を支援するために設計された895の合成質問と回答のデータセットであるLiveRAGベンチマークを紹介する。
この合成ベンチマークは、SIGIR'2025 LiveRAG Challengeで使用されるもので、競争相手は厳格な時間制約の下で評価された。
我々の分析では、ベンチマークの多様性、難易度の範囲、システム機能間の差別化におけるそれらの有用性について強調している。
論文 参考訳(メタデータ) (2025-11-18T14:34:35Z) - Knowledge-Graph Based RAG System Evaluation Framework [27.082302648704708]
大規模言語モデル(LLM)は重要な研究対象となっている。
Retrieval Augmented Generation (RAG)は、生成したコンテンツの信頼性と関連性を大幅に向上させる。
RAGシステムの評価は依然として難しい課題である。
論文 参考訳(メタデータ) (2025-10-02T20:36:21Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。
ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - ESGSenticNet: A Neurosymbolic Knowledge Base for Corporate Sustainability Analysis [36.5158422340267]
本稿では,持続可能性分析の知識基盤であるESGSenticNetを紹介する。
ESGSenticNetは、特殊概念解析、GPT-4o推論、および半教師付きラベル伝搬を統合するニューロシンボリックフレームワークから構築されている。
ESGSenticNetは、語彙的手法としてデプロイされると、より効果的に関連性があり実行可能なサステナビリティ情報をキャプチャする。
論文 参考訳(メタデータ) (2025-01-27T01:21:12Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ITEM(Iterative utiliTy judgm fraEntMework)を提案する。
RAGの3つの中核的構成要素は、検索モデル、ユーティリティ判断、回答生成から導かれる関連性ランキングであり、シューツの哲学的関連性体系と一致している。
実効性判定, ランキング, 回答生成におけるITEMの顕著な改善が, 代表ベースラインに基づいて示された。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Evaluation of Retrieval-Augmented Generation: A Survey [13.633909177683462]
本稿では,Retrieval-Augmented Generation (RAG)システムの評価とベンチマークについて概観する。
具体的には、検索・生成要素の定量化指標(関連性、正確性、忠実性など)について検討・比較する。
次に、様々なデータセットとメトリクスを分析し、現在のベンチマークの限界について議論し、RAGベンチマークの分野を前進させる潜在的な方向性を提案する。
論文 参考訳(メタデータ) (2024-05-13T02:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。