論文の概要: SusGen-GPT: A Data-Centric LLM for Financial NLP and Sustainability Report Generation
- arxiv url: http://arxiv.org/abs/2412.10906v1
- Date: Sat, 14 Dec 2024 17:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:39.897991
- Title: SusGen-GPT: A Data-Centric LLM for Financial NLP and Sustainability Report Generation
- Title(参考訳): SusGen-GPT:金融NLPと持続可能性レポート作成のためのデータ中心型LCM
- Authors: Qilong Wu, Xiaoneng Xiang, Hejia Huang, Xuan Wang, Yeo Wei Jie, Ranjan Satapathy, Ricardo Shirota Filho, Bharadwaj Veeravalli,
- Abstract要約: SusGen-30Kは7つの財務NLPタスクとESGレポート生成からなるカテゴリバランスデータセットである。
SusGen-GPTを開発した。これは6つの適応型タスクと2つのオフ・ザ・シェルフタスクにまたがって、最先端のパフォーマンスを実現する一連のモデルである。
そこで我々は,サステナビリティレポート生成を支援するために,Retrieval-Augmented Generation (RAG)と統合されたSusGenシステムを提案する。
- 参考スコア(独自算出の注目度): 8.400304053291938
- License:
- Abstract: The rapid growth of the financial sector and the rising focus on Environmental, Social, and Governance (ESG) considerations highlight the need for advanced NLP tools. However, open-source LLMs proficient in both finance and ESG domains remain scarce. To address this gap, we introduce SusGen-30K, a category-balanced dataset comprising seven financial NLP tasks and ESG report generation, and propose TCFD-Bench, a benchmark for evaluating sustainability report generation. Leveraging this dataset, we developed SusGen-GPT, a suite of models achieving state-of-the-art performance across six adapted and two off-the-shelf tasks, trailing GPT-4 by only 2% despite using 7-8B parameters compared to GPT-4's 1,700B. Based on this, we propose the SusGen system, integrated with Retrieval-Augmented Generation (RAG), to assist in sustainability report generation. This work demonstrates the efficiency of our approach, advancing research in finance and ESG.
- Abstract(参考訳): 金融セクターの急速な成長と環境・社会・ガバナンス(ESG)への注目の高まりは、先進的なNLPツールの必要性を浮き彫りにしている。
しかし、金融分野とESG分野の両方に精通するオープンソースのLLMは依然として乏しい。
このギャップを解決するために,7つの財務NLPタスクとESGレポート生成からなるカテゴリバランスデータセットであるSusGen-30Kを導入し,サステナビリティレポート生成を評価するベンチマークであるTFD-Benchを提案する。
このデータセットを応用したSusGen-GPTは、GPT-4の1,700Bの7-8Bパラメータを使用しながら、GPT-4をわずか2%追従する6つの適応タスクと2つのオフ・ザ・シェルフタスクで、最先端のパフォーマンスを達成する一連のモデルである。
そこで我々は,サステナビリティレポート生成を支援するために,Retrieval-Augmented Generation (RAG)と統合されたSusGenシステムを提案する。
この研究は、我々のアプローチの効率を実証し、金融とESGの研究を進めます。
関連論文リスト
- Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Leveraging Natural Language and Item Response Theory Models for ESG Scoring [0.0]
この研究はブラジルの大手石油会社ペトロブラスに関連するポルトガルのニュース記事の包括的データセットを利用している。
データは、高度なNLP法を用いてESG関連感情に対してフィルタリングされ分類される。
その後、ラッシュモデルを用いてこれらのESG測度の心理測定特性を評価する。
論文 参考訳(メタデータ) (2024-07-29T19:02:51Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - ESGReveal: An LLM-based approach for extracting structured data from ESG
reports [5.467389155759699]
ESGRevealは企業報告から環境・社会・ガバナンス(ESG)データを効率的に抽出・分析するための革新的な手法である。
このアプローチは、検索拡張生成(RAG)技術で強化されたLarge Language Models (LLM)を利用する。
この効果は、2022年に香港証券取引所に上場した様々な分野の166社のESGレポートを用いて評価された。
論文 参考訳(メタデータ) (2023-12-25T06:44:32Z) - Harnessing the Web and Knowledge Graphs for Automated Impact Investing
Scoring [2.4107880640624706]
持続可能な開発目標のフレームワークを作成するプロセスを自動化するための,データ駆動システムについて説明する。
本稿では,異なるWebソースからテキストのデータセットを収集・フィルタリングする新しい手法と,企業の集合に関連する知識グラフを提案する。
以上の結果から,我々の最高性能モデルでは,マイクロ平均F1スコア0.89でSDGスコアを正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-08-04T15:14:16Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Enabling and Analyzing How to Efficiently Extract Information from
Hybrid Long Documents with LLMs [48.87627426640621]
本研究は,財務報告から重要な情報を理解するために,大規模言語モデルの可能性を活用することに焦点を当てる。
財務報告から情報を理解し抽出するLLMの能力を高める自動財務情報抽出フレームワークを提案する。
本フレームワークは, GPT-3.5とGPT-4で有効に検証され, 平均精度は53.94%, 33.77%向上した。
論文 参考訳(メタデータ) (2023-05-24T10:35:58Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - ESGBERT: Language Model to Help with Classification Tasks Related to
Companies Environmental, Social, and Governance Practices [0.0]
環境、社会、ガバナンス(ESG)といった非金融要因が投資家から注目を集めている。
ESGテキストの分類タスクには高度なNLP技術が必要である。
本研究では,ESG 固有のテキストを用いて事前学習した BERT の重み付けを微調整し,さらに分類タスクのためのモデルを微調整することによってこれを行う。
論文 参考訳(メタデータ) (2022-03-31T04:22:44Z) - SustainBench: Benchmarks for Monitoring the Sustainable Development
Goals with Machine Learning [63.192289553021816]
国連持続可能な開発目標の進展は、主要な環境・社会経済指標のデータ不足によって妨げられている。
近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することが可能になった。
本稿では,7個のSDGにまたがる15個のベンチマークタスクの集合であるSustainBenchを紹介する。
論文 参考訳(メタデータ) (2021-11-08T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。