論文の概要: Advancing ESG Intelligence: An Expert-level Agent and Comprehensive Benchmark for Sustainable Finance
- arxiv url: http://arxiv.org/abs/2601.08676v1
- Date: Tue, 13 Jan 2026 15:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.270897
- Title: Advancing ESG Intelligence: An Expert-level Agent and Comprehensive Benchmark for Sustainable Finance
- Title(参考訳): ESGインテリジェンスの向上: 専門家レベルのエージェントと持続可能な財務のための総合ベンチマーク
- Authors: Yilei Zhao, Wentao Zhang, Xiao Lei, Yandan Zheng, Mengpu Liu, Wei Yang Bryan Lim,
- Abstract要約: ESGAgentは、特定のツールセットによって強化された階層型マルチエージェントシステムで、詳細なESG分析を生成する。
本稿では, 原子間共通感覚質問から, 総合的, 詳細な分析まで, 310件の企業サステナビリティレポートから得られた評価指標について述べる。
- 参考スコア(独自算出の注目度): 14.560441664514778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environmental, social, and governance (ESG) criteria are essential for evaluating corporate sustainability and ethical performance. However, professional ESG analysis is hindered by data fragmentation across unstructured sources, and existing large language models (LLMs) often struggle with the complex, multi-step workflows required for rigorous auditing. To address these limitations, we introduce ESGAgent, a hierarchical multi-agent system empowered by a specialized toolset, including retrieval augmentation, web search and domain-specific functions, to generate in-depth ESG analysis. Complementing this agentic system, we present a comprehensive three-level benchmark derived from 310 corporate sustainability reports, designed to evaluate capabilities ranging from atomic common-sense questions to the generation of integrated, in-depth analysis. Empirical evaluations demonstrate that ESGAgent outperforms state-of-the-art closed-source LLMs with an average accuracy of 84.15% on atomic question-answering tasks, and excels in professional report generation by integrating rich charts and verifiable references. These findings confirm the diagnostic value of our benchmark, establishing it as a vital testbed for assessing general and advanced agentic capabilities in high-stakes vertical domains.
- Abstract(参考訳): 環境・社会・統治基準(ESG)は、企業の持続可能性や倫理的パフォーマンスを評価する上で不可欠である。
しかし、プロのESG分析は構造化されていないソース間のデータの断片化によって妨げられ、既存の大規模言語モデル(LLM)は厳格な監査に必要な複雑な多段階のワークフローにしばしば苦労する。
これらの制約に対処するために,検索強化,Web検索,ドメイン固有関数など,特殊なツールセットによって強化された階層型マルチエージェントシステムであるESGAgentを導入し,詳細なESG解析を行う。
このエージェントシステムを補完し、310の企業サステナビリティレポートから得られた総合的な3段階のベンチマークを提示する。
実証的な評価では、ESGAgentは最先端のクローズドソースLCMを平均84.15%の精度で原子問合せタスクで上回り、リッチチャートと検証可能な参照を統合することで、プロフェッショナルなレポート生成に優れていた。
これらの結果から,本ベンチマークの診断値が確認され,高吸収垂直領域における汎用的および高度なエージェント能力を評価するための重要なテストベッドとして確立された。
関連論文リスト
- GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - DEER: A Comprehensive and Reliable Benchmark for Deep-Research Expert Reports [49.217247659479476]
ディープリサーチシステムは、多段階の推論とエビデンスベースの合成を通じて専門家レベルのレポートを生成することができる。
既存のベンチマークは、エキスパートレポートの体系的な基準を欠いていることが多い。
専門家レベルのディープリサーチレポートを評価するためのベンチマークであるDEERを紹介する。
論文 参考訳(メタデータ) (2025-12-19T16:46:20Z) - CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - Benchmarking LLM-based Agents for Single-cell Omics Analysis [6.915378212190715]
AIエージェントは、適応的な計画、実行可能なコード生成、トレース可能な決定、リアルタイム知識融合を可能にする、パラダイムシフトを提供する。
本稿では,シングルセルオミクス解析におけるエージェント能力の厳格な評価を行うためのベンチマーク評価システムを提案する。
論文 参考訳(メタデータ) (2025-08-16T04:26:18Z) - Optimizing Large Language Models for ESG Activity Detection in Financial Texts [0.7373617024876725]
本稿では,環境活動に関連するテキストを識別する次世代大規模言語モデルについて検討する。
ESG-ActivitiesはEUのESG分類に従って分類された1,325のラベル付きテキストセグメントを含むベンチマークデータセットである。
実験の結果,ESG-Activitiesの微調整は分類精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-02-28T14:52:25Z) - FinSphere, a Real-Time Stock Analysis Agent Powered by Instruction-Tuned LLMs and Domain Tools [7.6993069412225905]
現在の金融大規模言語モデル(FinLLM)は2つの限界に悩まされている。
株価分析レポートの品質評価のための客観的評価指標の欠如と、株価分析の深みの欠如は、彼らのプロフェッショナルグレードの洞察を生み出す能力を妨げている。
本稿では、ストック分析エージェントであるFinSphereと3つの主要な貢献について紹介する。
論文 参考訳(メタデータ) (2025-01-08T07:50:50Z) - InsightBench: Evaluating Business Analytics Agents Through Multi-Step Insight Generation [79.09622602860703]
3つの重要な特徴を持つベンチマークデータセットであるInsightBenchを紹介します。
財務やインシデント管理といったさまざまなビジネスユースケースを表す100のデータセットで構成されている。
単一のクエリに回答することに焦点を当てた既存のベンチマークとは異なり、InsightBenchは、エンドツーエンドのデータ分析を実行する能力に基づいてエージェントを評価する。
論文 参考訳(メタデータ) (2024-07-08T22:06:09Z) - Can a GPT4-Powered AI Agent Be a Good Enough Performance Attribution Analyst? [0.0]
本研究では,AIエージェントの様々なパフォーマンス属性タスクへの適用について紹介する。
パフォーマンスドライバの分析では93%を超え、マルチレベルの属性計算では100%を達成し、公式な試験基準をシミュレートするQA演習では84%を超える精度を達成している。
論文 参考訳(メタデータ) (2024-03-15T17:12:57Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。