論文の概要: Enhancing Retrieval for ESGLLM via ESG-CID -- A Disclosure Content Index Finetuning Dataset for Mapping GRI and ESRS
- arxiv url: http://arxiv.org/abs/2503.10674v2
- Date: Wed, 28 May 2025 21:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.497997
- Title: Enhancing Retrieval for ESGLLM via ESG-CID -- A Disclosure Content Index Finetuning Dataset for Mapping GRI and ESRS
- Title(参考訳): ESGLLM の ESG-CID による検索の促進 -- GRI と ESRS のマッピング用データセットの開示コンテンツインデックス作成
- Authors: Shafiuddin Rehan Ahmed, Ankit Parag Shah, Quan Hung Tran, Vivek Khetan, Sukryool Kang, Ankit Mehta, Yujia Bao, Wei Wei,
- Abstract要約: 気候変動は、組織のプラクティスにおける透明性と説明責任の必要性を増している。
Global Reporting Initiative(GRI)やEuropean Sustainability Reporting Standards(ESRS)といったフレームワークはESGレポートの標準化を目指している。
企業報告スタイルにおけるESG文書の相当な長さと可変性のため、包括的なレポートの生成は依然として困難である。
- 参考スコア(独自算出の注目度): 15.217878978015856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Climate change has intensified the need for transparency and accountability in organizational practices, making Environmental, Social, and Governance (ESG) reporting increasingly crucial. Frameworks like the Global Reporting Initiative (GRI) and the new European Sustainability Reporting Standards (ESRS) aim to standardize ESG reporting, yet generating comprehensive reports remains challenging due to the considerable length of ESG documents and variability in company reporting styles. To facilitate ESG report automation, Retrieval-Augmented Generation (RAG) systems can be employed, but their development is hindered by a lack of labeled data suitable for training retrieval models. In this paper, we leverage an underutilized source of weak supervision -- the disclosure content index found in past ESG reports -- to create a comprehensive dataset, ESG-CID, for both GRI and ESRS standards. By extracting mappings between specific disclosure requirements and corresponding report sections, and refining them using a Large Language Model as a judge, we generate a robust training and evaluation set. We benchmark popular embedding models on this dataset and show that fine-tuning BERT-based models can outperform commercial embeddings and leading public models, even under temporal data splits for cross-report style transfer from GRI to ESRS. Data: https://huggingface.co/datasets/airefinery/esg_cid_retrieval
- Abstract(参考訳): 気候変動により、組織の実践における透明性と説明責任の必要性が増し、環境、社会、ガバナンス(ESG)の報告がますます重要になっている。
GRI(Global Reporting Initiative)やESRS(European Sustainability Reporting Standards)といったフレームワークはESGレポートの標準化を目標としているが、ESGドキュメントの相当な長さと企業のレポートスタイルの変動のため、包括的なレポートの生成は難しいままである。
ESGレポートの自動化を容易にするために、レトリーバル拡張生成システム(RAG)を用いることができるが、それらの開発は、学習モデルに適合するラベル付きデータの欠如によって妨げられる。
本稿では、過去のESGレポートに見られる情報開示コンテンツ指標である弱監督源の未使用を利用して、GRIおよびESRS標準の両方に包括的データセットESG-CIDを作成する。
特定の開示要件とそれに対応するレポートセクションのマッピングを抽出し,大言語モデルを用いて判断を行うことにより,ロバストなトレーニングと評価セットを生成する。
我々は、このデータセット上で一般的な埋め込みモデルをベンチマークし、細調整されたBERTベースのモデルが、GRIからESRSへのクロスレポートスタイル転送のための一時的なデータ分割であっても、商業的な埋め込みや主要な公開モデルよりも優れていることを示す。
データ:https://huggingface.co/datasets/airefinery/esg_cid_retrieval
関連論文リスト
- RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation [71.2136732268131]
RGB-Thermal(RGBT)トラッキングは、多様な環境条件をまたいだ堅牢なオブジェクトローカライゼーションを実現することを目的としている。
既存のRGBTトラッカーは、ターゲットモデリングのための初期フレームの視覚情報のみに依存している。
堅牢なRGBTトラッキングのための新しい検索拡張フレームワークであるRAGTrackを提案する。
論文 参考訳(メタデータ) (2026-03-04T01:02:04Z) - Pharos-ESG: A Framework for Multimodal Parsing, Contextual Narration, and Hierarchical Labeling of ESG Report [9.026784135029034]
Pharos-ESGは、ESGレポートをマルチモーダル解析、コンテキストナレーション、階層ラベリングを通じて構造化表現に変換するフレームワークである。
Aurora-ESGはESGの再ポートの大規模なデータセットで、中国本土、香港、米国にまたがる最初の大規模なデータセットです。
論文 参考訳(メタデータ) (2025-11-20T14:41:44Z) - EulerESG: Automating ESG Disclosure Analysis with LLMs [18.29247438372126]
ESG開示分析を自動化するLLM方式であるbftextEulerESGを提案する。
我々は,EulerESGが高忠実度で標準整列距離表を自動生成できることを示す。
論文 参考訳(メタデータ) (2025-11-18T12:35:44Z) - Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval [125.19156877994612]
生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する
我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。
具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
論文 参考訳(メタデータ) (2025-10-12T03:04:24Z) - RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。
RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文 参考訳(メタデータ) (2025-10-11T03:06:39Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems [0.0]
Retrieval-Augmented Generation (RAG)は、ユーザ向けチャットアプリケーションにおけるドメイン固有の知識の標準的なアーキテクチャパターンとなっている。
RAGBenchは、100kのサンプルからなる、最初の包括的な大規模RAGベンチマークデータセットである。
TRACe評価フレームワークは、すべてのRAGドメインに適用可能な説明可能かつ実行可能なRAG評価指標のセットである。
論文 参考訳(メタデータ) (2024-06-25T20:23:15Z) - Relation Extraction with Fine-Tuned Large Language Models in Retrieval Augmented Generation Frameworks [0.0]
関係抽出(RE)は、構造化されていないデータを知識グラフ(KG)のような構造化形式に変換するために重要である
プレトレーニング言語モデル(PLM)を活用した最近の研究は、この分野で大きな成功を収めている。
本研究では、微調整LDMの性能と、Retrieval Augmented-based (RAG) REアプローチへの統合について検討する。
論文 参考訳(メタデータ) (2024-06-20T21:27:57Z) - Advanced Unstructured Data Processing for ESG Reports: A Methodology for
Structured Transformation and Enhanced Analysis [20.038120319271773]
本研究では,ESGレポートを構造化解析可能な形式に変換する革新的な手法を提案する。
提案手法は,高精度なテキストクリーニング,画像からのテキストの適切な識別と抽出,およびこれらのレポート内の表の標準化を実現する。
この研究は、産業生態学と企業持続可能性評価の分野に多大な貢献をしている。
論文 参考訳(メタデータ) (2024-01-04T06:26:59Z) - ESGReveal: An LLM-based approach for extracting structured data from ESG
reports [5.467389155759699]
ESGRevealは企業報告から環境・社会・ガバナンス(ESG)データを効率的に抽出・分析するための革新的な手法である。
このアプローチは、検索拡張生成(RAG)技術で強化されたLarge Language Models (LLM)を利用する。
この効果は、2022年に香港証券取引所に上場した様々な分野の166社のESGレポートを用いて評価された。
論文 参考訳(メタデータ) (2023-12-25T06:44:32Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - Glitter or Gold? Deriving Structured Insights from Sustainability
Reports via Large Language Models [16.231171704561714]
本研究では,企業のサステナビリティレポートからESGに関する構造化された洞察を抽出するために,情報抽出(IE)手法を用いる。
次に、グラフに基づく表現を活用して、抽出された洞察に関する統計的分析を行う。
論文 参考訳(メタデータ) (2023-10-09T11:34:41Z) - Federated Generalized Category Discovery [68.35420359523329]
一般カテゴリー発見(GCD)は、未知のクラスからラベルのないサンプルをグループ化することを目的としている。
地域社会における近年の分権化の傾向に対応するため,フェデレーションGCD(Fed-GCD)という,実践的かつ困難な課題を導入する。
Fed-GCDの目標は、プライバシ保護された制約の下で、クライアントのコラボレーションによって汎用的なGCDモデルをトレーニングすることである。
論文 参考訳(メタデータ) (2023-05-23T14:27:41Z) - ESGBERT: Language Model to Help with Classification Tasks Related to
Companies Environmental, Social, and Governance Practices [0.0]
環境、社会、ガバナンス(ESG)といった非金融要因が投資家から注目を集めている。
ESGテキストの分類タスクには高度なNLP技術が必要である。
本研究では,ESG 固有のテキストを用いて事前学習した BERT の重み付けを微調整し,さらに分類タスクのためのモデルを微調整することによってこれを行う。
論文 参考訳(メタデータ) (2022-03-31T04:22:44Z) - Social Adaptive Module for Weakly-supervised Group Activity Recognition [143.68241396839062]
本稿では、弱教師付きグループ活動認識(GAR)と呼ばれる新しいタスクを提案する。
従来のGARタスクとは違い、ビデオレベルラベルのみが利用可能であるが、トレーニングデータにおいても、各フレーム内の重要人物は提供されない。
これにより、大規模なNBAデータセットの収集とアノテートが容易になり、GARに新たな課題が生まれます。
論文 参考訳(メタデータ) (2020-07-18T16:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。