論文の概要: Efficacy of Large Language Models in Systematic Reviews
- arxiv url: http://arxiv.org/abs/2408.04646v1
- Date: Sat, 3 Aug 2024 00:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 04:27:34.307496
- Title: Efficacy of Large Language Models in Systematic Reviews
- Title(参考訳): システムレビューにおける大規模言語モデルの有効性
- Authors: Aaditya Shah, Shridhar Mehendale, Siddha Kanthi,
- Abstract要約: 本研究では,既存文献の解釈におけるLarge Language Models(LLMs)の有効性について検討した。
私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。
そこで我々は,Meta AIのLlama 38BとOpenAIのGPT-4oの2つの現状のLLMを,その解釈精度に基づいて評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the effectiveness of Large Language Models (LLMs) in interpreting existing literature through a systematic review of the relationship between Environmental, Social, and Governance (ESG) factors and financial performance. The primary objective is to assess how LLMs can replicate a systematic review on a corpus of ESG-focused papers. We compiled and hand-coded a database of 88 relevant papers published from March 2020 to May 2024. Additionally, we used a set of 238 papers from a previous systematic review of ESG literature from January 2015 to February 2020. We evaluated two current state-of-the-art LLMs, Meta AI's Llama 3 8B and OpenAI's GPT-4o, on the accuracy of their interpretations relative to human-made classifications on both sets of papers. We then compared these results to a "Custom GPT" and a fine-tuned GPT-4o Mini model using the corpus of 238 papers as training data. The fine-tuned GPT-4o Mini model outperformed the base LLMs by 28.3% on average in overall accuracy on prompt 1. At the same time, the "Custom GPT" showed a 3.0% and 15.7% improvement on average in overall accuracy on prompts 2 and 3, respectively. Our findings reveal promising results for investors and agencies to leverage LLMs to summarize complex evidence related to ESG investing, thereby enabling quicker decision-making and a more efficient market.
- Abstract(参考訳): 本研究では,環境・社会・ガバナンス(ESG)要因と財務業績との関係を体系的に検討し,既存の文献を解釈する上での言語モデル(LLM)の有効性について検討した。
第一の目的は、ESGに焦点を当てた論文のコーパスにおいて、LLMが体系的なレビューをいかに再現できるかを評価することである。
私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。
さらに,2015年1月から2020年2月までにESG文献の体系的レビューを行った。
我々は,メタAIのLlama 3 8BとOpenAIのGPT-4oの2つの現状のLCMを,両論文の人為的分類に対する解釈の精度に基づいて評価した。
次に,238論文のコーパスをトレーニングデータとして用いた「カスタムGPT」と微調整GPT-4o Miniモデルと比較した。
微調整のGPT-4o Miniモデルは、プロンプト1の精度で平均28.3%向上した。
同時に、「カスタムGPT」は、プロンプト2と3の総合的精度で平均3.0%と15.7%の改善を示した。
この結果から、投資家や機関がLSMを活用してESG投資に関する複雑な証拠を要約し、迅速な意思決定とより効率的な市場を実現することが期待できる結果となった。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - The emergence of Large Language Models (LLM) as a tool in literature reviews: an LLM automated systematic review [42.112100361891905]
本研究では,Large Language Models (LLMs) の科学的レビュー作成過程における使用法を要約することを目的とする。
我々は、現場における現在の最先端の研究プロジェクトを自動化し、評価できるレビューのステージの範囲について検討する。
論文 参考訳(メタデータ) (2024-09-06T20:12:57Z) - Empowering Large Language Models to Set up a Knowledge Retrieval Indexer via Self-Learning [17.83428132220955]
Pseudo-Graph Retrieval-Augmented Generation (PG-RAG) という事前検索フレームワークを提案する。
PG-RAGは、LLMを学生として、豊富な原材料を提供することで概念化している。
PG-RAGは、検索フェーズの間、ノートをめくると人間の行動を模倣する。
論文 参考訳(メタデータ) (2024-05-27T08:26:45Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - ESG Classification by Implicit Rule Learning via GPT-4 [1.9702372005978506]
本稿では,GPT-4のような最先端言語モデルが未知のESG評価基準に適合するようにガイドできるかどうかを検討する。
韓国における共有タスクML-ESG-3Impact Type Trackの2位にランク付けすることで,これらのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-22T08:45:30Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - A Survey on Legal Judgment Prediction: Datasets, Metrics, Models and
Challenges [73.34944216896837]
法定判断予測(LJP)は,事実記述に基づく判断結果の自動予測に自然言語処理(NLP)技術を適用している。
6言語で31のLJPデータセットを分析し、その構築過程を示し、LJPの分類方法を定義する。
異なる訴訟の8つの代表的データセットに対する最先端の結果を示し、オープンな課題について議論する。
論文 参考訳(メタデータ) (2022-04-11T04:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。