論文の概要: Toward Trustworthy Evaluation of Sustainability Rating Methodologies: A Human-AI Collaborative Framework for Benchmark Dataset Construction
- arxiv url: http://arxiv.org/abs/2602.17106v1
- Date: Thu, 19 Feb 2026 06:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.719118
- Title: Toward Trustworthy Evaluation of Sustainability Rating Methodologies: A Human-AI Collaborative Framework for Benchmark Dataset Construction
- Title(参考訳): 持続可能なレーティング手法の信頼性評価に向けて:ベンチマークデータセット構築のための人間-AI協調フレームワーク
- Authors: Xiaoran Cai, Wang Yang, Xiyu Ren, Chekun Law, Rohit Sharma, Peng Qi,
- Abstract要約: 我々は,サステナビリティ評価手法を評価するために,信頼に値するベンチマークデータセットを生成するために,ユニバーサルな人間-AIコラボレーションフレームワークを採用することを提案する。
我々は、ファームレベルベンチマークデータセットの構築をガイドする原則付き基準とスコアシステムを提供する。
私たちは、サステナビリティ評価方法論を強化し前進させるために、AIを活用したアプローチを採用するよう、幅広いAIコミュニティに呼びかけています。
- 参考スコア(独自算出の注目度): 4.26631223053023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sustainability or ESG rating agencies use company disclosures and external data to produce scores or ratings that assess the environmental, social, and governance performance of a company. However, sustainability ratings across agencies for a single company vary widely, limiting their comparability, credibility, and relevance to decision-making. To harmonize the rating results, we propose adopting a universal human-AI collaboration framework to generate trustworthy benchmark datasets for evaluating sustainability rating methodologies. The framework comprises two complementary parts: STRIDE (Sustainability Trust Rating & Integrity Data Equation) provides principled criteria and a scoring system that guide the construction of firm-level benchmark datasets using large language models (LLMs), and SR-Delta, a discrepancy-analysis procedural framework that surfaces insights for potential adjustments. The framework enables scalable and comparable assessment of sustainability rating methodologies. We call on the broader AI community to adopt AI-powered approaches to strengthen and advance sustainability rating methodologies that support and enforce urgent sustainability agendas.
- Abstract(参考訳): サステナビリティ(Sustainability)またはESG評価機関は、企業の環境、社会的、ガバナンスのパフォーマンスを評価するスコアや評価を作成するために、企業の開示と外部データを使用する。
しかし、単一の企業の機関間でのサステナビリティ評価は、その適合性、信頼性、意思決定との関連性を制限し、大きく異なる。
評価結果を調和させるために,サステナビリティ評価手法を評価する上で,信頼性の高いベンチマークデータセットを生成するために,ユニバーサルな人間-AIコラボレーションフレームワークを採用することを提案する。
STRIDE(Sustainability Trust Rating and Integrity Data Equation)は、大規模言語モデル(LLM)を用いたファームレベルのベンチマークデータセットの構築をガイドする、原則付き基準とスコアシステムを提供する。
このフレームワークは、持続可能性評価方法論のスケーラブルで同等の評価を可能にする。
私たちは、緊急のサステナビリティアジェンダを支援し、実施するサステナビリティ評価方法論を強化し、前進させるAIベースのアプローチを採用するよう、幅広いAIコミュニティに呼びかけています。
関連論文リスト
- A Framework for Data Valuation and Monetisation [0.0]
本稿では,コヒーレントな意思決定支援モデルに経済,ガバナンス,戦略的視点を統合する統一的評価枠組みを紹介する。
このモデルは質的なスコアリング、コストとユーティリティに基づく見積もり、妥当性/品質のインデックス付け、および複数基準重み付けを組み合わせて、透過的かつ体系的にデータ値を定義する。
論文 参考訳(メタデータ) (2025-12-08T15:57:26Z) - CCE: Confidence-Consistency Evaluation for Time Series Anomaly Detection [56.302586730134806]
本稿では,新しい評価指標である信頼性・一貫性評価(CCE)を紹介する。
CCEは同時に、予測の信頼性と不確実性を測定する。
RankEvalは、さまざまなメトリクスのランキング機能を比較するためのベンチマークです。
論文 参考訳(メタデータ) (2025-09-01T03:38:38Z) - Evaluating DAO Sustainability and Longevity Through On-Chain Governance Metrics [2.114921680609289]
分散型自律組織(DAO)はスマートコントラクトを通じてガバナンスとリソース割り当てを自動化する。
本稿では、金融評価における研究ギャップを特定し、キーパフォーマンス指標の枠組みを導入することにより、これらの課題に対処する。
本フレームワークは,オンチェーンデータから構築された実世界のカスタム構築データセットに適用し,非パラメトリック手法を用いて分析する。
その結果, 長期生存を損なう可能性のある低い参加率と高い提案者濃度を含む, 定期的なガバナンスパターンが明らかとなった。
論文 参考訳(メタデータ) (2025-04-15T16:13:20Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Literature Review of Current Sustainability Assessment Frameworks and
Approaches for Organizations [10.045497511868172]
本稿では,サステナビリティ・アセスメント・フレームワーク(SAF)を多種多様な産業に展開する。
本稿では,サステナビリティ・インジケータ(SI)の選択方法,相対的重要性評価,相互依存分析など,SAF設計のアプローチに焦点を当てる。
論文 参考訳(メタデータ) (2024-03-07T18:14:52Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。