Fugu-MT 論文翻訳(概要): Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing

論文の概要: Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing

arxiv url: http://arxiv.org/abs/2310.12664v1
Date: Thu, 19 Oct 2023 11:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 15:35:15.845315
Title: Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing
Title（参考訳）: ChatGPTは金融専門家か? 金融自然言語処理における言語モデルの評価
Authors: Yue Guo, Zian Xu, Yi Yang
Abstract要約: FinLMEvalは金融言語モデル評価のためのフレームワークである。本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
参考スコア（独自算出の注目度）: 22.754757518792395
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of Large Language Models (LLMs), such as ChatGPT, has revolutionized general natural language preprocessing (NLP) tasks. However, their expertise in the financial domain lacks a comprehensive evaluation. To assess the ability of LLMs to solve financial NLP tasks, we present FinLMEval, a framework for Financial Language Model Evaluation, comprising nine datasets designed to evaluate the performance of language models. This study compares the performance of encoder-only language models and the decoder-only language models. Our findings reveal that while some decoder-only LLMs demonstrate notable performance across most financial tasks via zero-shot prompting, they generally lag behind the fine-tuned expert models, especially when dealing with proprietary datasets. We hope this study provides foundation evaluations for continuing efforts to build more advanced LLMs in the financial domain.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)の出現は、一般的な自然言語前処理(NLP)タスクに革命をもたらした。しかし、金融分野における彼らの専門知識は包括的評価を欠いている。金融言語モデル評価のためのフレームワークであるFinLMEvalについて,言語モデルの性能評価を目的とした9つのデータセットを提示する。本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。以上の結果から,デコーダのみのLCMでは,ゼロショットプロンプトによる財務処理において,特にプロプライエタリなデータセットを扱う場合には,細調整されたエキスパートモデルに遅れが生じることが判明した。本研究は、金融分野でより先進的なLCMの構築を継続するための基礎的な評価を期待する。

関連論文リスト

The LLM Pro Finance Suite: Multilingual Large Language Models for Financial Applications [4.211847212372977]
LLM Pro Finance Suite(英語: LLM Pro Finance Suite)は、金融アプリケーション向けに設計された5つの命令調整型大規模言語モデル(LLM)のコレクションである。提案手法は,命令従順,推論,毒性制御において既存の強みを生かし,汎用的な指導訓練モデルの向上に重点を置いている。このスイートを総合的な金融ベンチマークスイートで評価し、金融指向タスクと金融翻訳における最先端のベースラインに対する一貫した改善を実証した。
論文参考訳（メタデータ） (2025-11-07T11:08:31Z)
Finance Language Model Evaluation (FLaME) [5.904572835181286]
言語モデル(LM)は、中核的な自然言語処理(NLP)タスクで印象的な機能を示している。金融言語モデル評価のための総合ベンチマークスイート(FLaME)について紹介する。我々は,LMを「レアソン化強化型」LMに対して包括的に研究する最初の研究論文である。
論文参考訳（メタデータ） (2025-06-18T19:54:33Z)
MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation [89.73542209537148]
MultiFinBenは、グローバルファイナンシャルドメインに合わせた最初のマルチリンガルおよびマルチモーダルベンチマークである。我々は,最初のOCR組み込み財務QAタスクである EnglishOCR と SpanishOCR の2つの新しいタスクを紹介する。本稿では,動的で難易度の高い選択機構を提案し,コンパクトでバランスの取れたベンチマークをキュレートする。
論文参考訳（メタデータ） (2025-06-16T22:01:49Z)
ZiGong 1.0: A Large Language Model for Financial Credit [8.49779245416985]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクにおいて高い性能を示している。しかし、金融信用評価の応用における効果は、依然として準最適である。マルチタスク制御による微調整により強化されたMistralベースのモデルであるZiGongを提案する。
論文参考訳（メタデータ） (2025-02-22T09:27:56Z)
Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。 Touchstone-GPTをオープンソースとして公開した。
論文参考訳（メタデータ） (2024-11-09T20:09:11Z)
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。 SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。 SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文参考訳（メタデータ） (2024-08-05T08:24:24Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。 7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。 FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文参考訳（メタデータ） (2024-02-12T04:50:31Z)
Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。 1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文参考訳（メタデータ） (2024-01-26T11:04:01Z)
Revolutionizing Finance with LLMs: An Overview of Applications and Insights [47.11391223936608]
ChatGPTのような大規模言語モデル(LLM)はかなり進歩しており、様々な分野に適用されている。これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
論文参考訳（メタデータ） (2024-01-22T01:06:17Z)
Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文参考訳（メタデータ） (2023-11-15T15:12:15Z)
DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。 DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-10-23T11:33:41Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
Large Language Models in Finance: A Survey [12.243277149505364]
大規模言語モデル(LLM)は、金融における人工知能応用の新しい可能性を開いた。大規模言語モデル(LLM)の最近の進歩は、金融における人工知能応用の新しい可能性を開いた。
論文参考訳（メタデータ） (2023-09-28T06:04:04Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文参考訳（メタデータ） (2022-10-31T18:35:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。