論文の概要: Finance Language Model Evaluation (FLaME)
- arxiv url: http://arxiv.org/abs/2506.15846v1
- Date: Wed, 18 Jun 2025 19:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.832067
- Title: Finance Language Model Evaluation (FLaME)
- Title(参考訳): 金融言語モデル評価(FLaME)
- Authors: Glenn Matlin, Mika Okamoto, Huzaifa Pardawala, Yang Yang, Sudheer Chava,
- Abstract要約: 言語モデル(LM)は、中核的な自然言語処理(NLP)タスクで印象的な機能を示している。
金融言語モデル評価のための総合ベンチマークスイート(FLaME)について紹介する。
我々は,LMを「レアソン化強化型」LMに対して包括的に研究する最初の研究論文である。
- 参考スコア(独自算出の注目度): 5.904572835181286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language Models (LMs) have demonstrated impressive capabilities with core Natural Language Processing (NLP) tasks. The effectiveness of LMs for highly specialized knowledge-intensive tasks in finance remains difficult to assess due to major gaps in the methodologies of existing evaluation frameworks, which have caused an erroneous belief in a far lower bound of LMs' performance on common Finance NLP (FinNLP) tasks. To demonstrate the potential of LMs for these FinNLP tasks, we present the first holistic benchmarking suite for Financial Language Model Evaluation (FLaME). We are the first research paper to comprehensively study LMs against 'reasoning-reinforced' LMs, with an empirical study of 23 foundation LMs over 20 core NLP tasks in finance. We open-source our framework software along with all data and results.
- Abstract(参考訳): 言語モデル(LM)は、中核的な自然言語処理(NLP)タスクで印象的な機能を示している。
金融における高度に専門化された知識集約的なタスクに対するLMの有効性は、既存の評価枠組みの方法論に大きなギャップがあるため評価が難しいままであり、これは共通財務NLP(FinNLP)タスクにおけるLMのパフォーマンスのはるかに低い範囲での誤信を引き起こしている。
これらのFinNLPタスクに対するLMの可能性を示すため、FlaME(FinNLP)のための総合的なベンチマークスイートについて紹介する。
我々は、金融における20コアNLPタスクの23基の基盤LMを実証研究し、LMを「レゾニング強化型」LMに対して包括的に研究した最初の研究論文である。
すべてのデータと結果とともに、フレームワークソフトウェアをオープンソースにしています。
関連論文リスト
- FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。
FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。
実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文 参考訳(メタデータ) (2025-05-18T11:47:55Z) - Bridging Language Models and Financial Analysis [49.361943182322385]
大規模言語モデル(LLM)の急速な進歩は、自然言語処理における変換可能性の解放をもたらした。
財務データは、しばしばテキストコンテンツ、数値表、および視覚チャートの複雑な関係に埋め込まれる。
LLM研究における急速なイノベーションのペースにもかかわらず、金融業界における彼らの実践的採用には大きなギャップが残っている。
論文 参考訳(メタデータ) (2025-03-14T01:35:20Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - A Survey of Large Language Models in Finance (FinLLMs) [10.195778659105626]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで顕著な機能を示している。
この調査は、FinLLMの歴史、テクニック、パフォーマンス、機会と課題を含む、包括的な概要を提供する。
ファイナンスにおけるAI研究を支援するために、アクセス可能なデータセットと評価ベンチマークのコレクションをGitHubにコンパイルします。
論文 参考訳(メタデータ) (2024-02-04T02:06:57Z) - Revolutionizing Finance with LLMs: An Overview of Applications and Insights [45.660896719456886]
ChatGPTのような大規模言語モデル(LLM)はかなり進歩しており、様々な分野に適用されている。
これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
論文 参考訳(メタデータ) (2024-01-22T01:06:17Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。