論文の概要: ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2603.13154v1
- Date: Fri, 13 Mar 2026 16:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.197837
- Title: ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation
- Title(参考訳): ESG-Bench: 覚醒軽減のための長期ESGレポートのベンチマーク
- Authors: Siqi Sun, Ben Peng Wu, Mali Jin, Peizhen Bai, Hanpei Zhang, Xingyi Song,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるESGレポート理解と幻覚軽減のためのベンチマークデータセットであるESG-Benchを紹介する。
ESG-Benchには、現実のESGレポートのコンテキストに基づいた、人間の注釈付き質問応答ペアが含まれている。
タスク固有のChain-of-Thoughtプロンプト戦略を設計し、CoTアノテート論理を用いたESG-Bench上の複数の最先端LCMを微調整する。
- 参考スコア(独自算出の注目度): 13.314189556503054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As corporate responsibility increasingly incorporates environmental, social, and governance (ESG) criteria, ESG reporting is becoming a legal requirement in many regions and a key channel for documenting sustainability practices and assessing firms' long-term and ethical performance. However, the length and complexity of ESG disclosures make them difficult to interpret and automate the analysis reliably. To support scalable and trustworthy analysis, this paper introduces ESG-Bench, a benchmark dataset for ESG report understanding and hallucination mitigation in large language models (LLMs). ESG-Bench contains human-annotated question-answer (QA) pairs grounded in real-world ESG report contexts, with fine-grained labels indicating whether model outputs are factually supported or hallucinated. Framing ESG report analysis as a QA task with verifiability constraints enables systematic evaluation of LLMs' ability to extract and reason over ESG content and provides a new use case: mitigating hallucinations in socially sensitive, compliance-critical settings. We design task-specific Chain-of-Thought (CoT) prompting strategies and fine-tune multiple state-of-the-art LLMs on ESG-Bench using CoT-annotated rationales. Our experiments show that these CoT-based methods substantially outperform standard prompting and direct fine-tuning in reducing hallucinations, and that the gains transfer to existing QA benchmarks beyond the ESG domain.
- Abstract(参考訳): 企業責任が環境・社会・ガバナンス(ESG)の基準をますます取り入れていくにつれ、ESG報告は多くの地域で法的要件となり、持続可能性の実践を文書化し、企業の長期的・倫理的業績を評価するための重要なチャンネルとなっている。
しかし、ESG開示の長さと複雑さは、解析を確実に解釈し、自動化することを困難にしている。
本稿では,大規模言語モデル(LLM)におけるESGレポート理解と幻覚軽減のためのベンチマークデータセットであるESG-Benchを紹介する。
ESG-Benchには、実世界のESGレポートのコンテキストに根ざした人間の注釈付き質問応答(QA)ペアが含まれており、モデル出力が実際にサポートされているか幻覚されているかを示すきめ細かいラベルがある。
検証可能性制約を伴うQAタスクとしてESGレポート分析を断片化することにより、LSMがESGコンテンツを抽出し、推論する能力の体系的評価が可能になり、社会に敏感でコンプライアンスクリティカルな設定で幻覚を緩和する新しいユースケースを提供する。
我々は, ESG-Bench上でのタスク固有のChain-of-Thought (CoT) を, CoTアノテートした有理量を用いて, 戦略と微調整の複数のLEMを設計する。
実験の結果、これらのCoTベースの手法は幻覚の低減に際し、直接微調整を行い、ESGドメイン以外の既存のQAベンチマークへの利得が大幅に向上することがわかった。
関連論文リスト
- ESGBench: A Benchmark for Explainable ESG Question Answering in Corporate Sustainability Reports [0.0]
本稿では,ESG質問応答システムの評価を目的としたベンチマークデータセットと評価フレームワークであるESGBenchを提案する。
このベンチマークは、複数のESGテーマにまたがるドメイン地上の質問から成り、人間による回答と組み合わせられ、証拠を裏付ける。
ESGBench 上での最先端 LLM の性能を解析し,現実の一貫性,トレーサビリティ,ドメインアライメントといった重要な課題を強調した。
論文 参考訳(メタデータ) (2025-11-20T15:07:17Z) - EulerESG: Automating ESG Disclosure Analysis with LLMs [18.29247438372126]
ESG開示分析を自動化するLLM方式であるbftextEulerESGを提案する。
我々は,EulerESGが高忠実度で標準整列距離表を自動生成できることを示す。
論文 参考訳(メタデータ) (2025-11-18T12:35:44Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。
ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - PL-FGSA: A Prompt Learning Framework for Fine-Grained Sentiment Analysis Based on MindSpore [0.0]
微粒な感情分析は、テキスト内の特定の側面に対する感情の極性を特定することを目的としている。
従来のFGSAアプローチは、タスク固有のアーキテクチャと広範な注釈付きデータを必要とすることが多い。
PL-FGSAは,MindSporeプラットフォームを用いて実装された即時学習ベースの統合フレームワークである。
提案手法は,FGSAを多タスク即時生成問題として再構成し,アスペクト抽出,感情分類,因果的説明を行う。
論文 参考訳(メタデータ) (2025-05-20T10:18:10Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Enhancing Retrieval for ESGLLM via ESG-CID -- A Disclosure Content Index Finetuning Dataset for Mapping GRI and ESRS [15.217878978015856]
気候変動は、組織のプラクティスにおける透明性と説明責任の必要性を増している。
Global Reporting Initiative(GRI)やEuropean Sustainability Reporting Standards(ESRS)といったフレームワークはESGレポートの標準化を目指している。
企業報告スタイルにおけるESG文書の相当な長さと可変性のため、包括的なレポートの生成は依然として困難である。
論文 参考訳(メタデータ) (2025-03-10T18:07:33Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Generalized Few-shot Semantic Segmentation [68.69434831359669]
本稿では,GFS-Seg(Generalized Few-Shot Semantic)と呼ばれる新しいベンチマークを導入する。
GFS-セグにおいて、先行する最先端の一般化が不足していることを示す最初の研究である。
本研究では,1)支援サンプルから共起前の知識を活用すること,2)各クエリ画像の内容に基づいて条件付き情報に動的に拡張することにより,性能を著しく向上するコンテキスト認識型プロトタイプ学習(CAPL)を提案する。
論文 参考訳(メタデータ) (2020-10-11T10:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。