論文の概要: Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis
- arxiv url: http://arxiv.org/abs/2507.22936v1
- Date: Thu, 24 Jul 2025 20:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.312011
- Title: Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis
- Title(参考訳): 金融NLPにおける大規模言語モデル(LLM)の評価 : 財務報告分析の比較研究
- Authors: Md Talha Mohsin,
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな金融自然言語処理(FinNLP)タスクで顕著な機能を示している。
本研究は,5つのLLM,GPT,Claude,Perplexity,Gemini,DeepSeekの総合的な比較評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide variety of Financial Natural Language Processing (FinNLP) tasks. However, systematic comparisons among widely used LLMs remain underexplored. Given the rapid advancement and growing influence of LLMs in financial analysis, this study conducts a thorough comparative evaluation of five leading LLMs, GPT, Claude, Perplexity, Gemini and DeepSeek, using 10-K filings from the 'Magnificent Seven' technology companies. We create a set of domain-specific prompts and then use three methodologies to evaluate model performance: human annotation, automated lexical-semantic metrics (ROUGE, Cosine Similarity, Jaccard), and model behavior diagnostics (prompt-level variance and across-model similarity). The results show that GPT gives the most coherent, semantically aligned, and contextually relevant answers; followed by Claude and Perplexity. Gemini and DeepSeek, on the other hand, have more variability and less agreement. Also, the similarity and stability of outputs change from company to company and over time, showing that they are sensitive to how prompts are written and what source material is used.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな金融自然言語処理(FinNLP)タスクで顕著な機能を示している。
しかし、広く使われているLLMの体系的比較は未検討のままである。
本研究は金融分析におけるLLMの急速な進歩と影響力の増大を踏まえ,5つの主要なLCM,GPT,Claude,Perplexity,Gemini,DeepSeekの総合的な比較評価を行う。
我々は、ドメイン固有のプロンプトのセットを作成し、それからモデルパフォーマンスを評価するために3つの方法論を使用する:人アノテーション、自動語彙-セマンティックメトリクス(ROUGE、Cosine similarity、Jaccard)、モデル行動診断(promptレベルの分散とモデル間の類似性)。
その結果、GPTは最も一貫性があり、セマンティックに整合し、文脈的に関連する答えを与え、次にクロードとパープレキシティが続くことがわかった。
一方、GeminiとDeepSeekはより多様性があり、合意も少ない。
また、アウトプットの類似性と安定性は企業ごとに変化し、プロンプトの書き方や原料の使い方に敏感であることを示す。
関連論文リスト
- Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis [1.3812010983144802]
我々は,様々な大規模言語モデル (LLM) が経済的文脈における人間ラベルの感情とどのように一致しているかを評価する。
本研究は, モデル設計のプロンプトや本質的設計による推論が, この課題における性能を向上させるものではないことを示唆している。
驚くべきことに、モデルと手法の最も正確かつ人間に整合した組み合わせは、CoT(Chain-of-Thought)を推進しないGPT-4oであった。
論文 参考訳(メタデータ) (2025-06-05T02:47:23Z) - Can AI Read Between The Lines? Benchmarking LLMs On Financial Nuance [0.0]
本稿では、チャーリー・ゴールデンバーグ教授が主導するサンタクララ・Microsoft Practicum Projectの成果を紹介する。
MicrosoftのCopilot、OpenAIのChatGPT、GoogleのGemini、財務テキストの感情分析のための従来の機械学習モデルのパフォーマンスをベンチマークする。
この分析はMicrosoftの決算書の書き起こしを使って、LLM由来の感情が市場感情と株価の動きとどのように相関するかを評価する。
論文 参考訳(メタデータ) (2025-05-22T00:09:11Z) - Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks [0.0]
本研究は,財務・会計研究における大規模言語モデル(LLM)出力の整合性と精度の総合評価を初めて行った。
3つのOpenAIモデルを使用して、さまざまな財務資料やデータから340万以上のアウトプットを生成します。
LLMは、人間の専門家が意見が一致しない場合でも、専門家のアノテータを著しく上回っている。
論文 参考訳(メタデータ) (2025-03-21T09:43:37Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? [5.246809683975664]
本研究は、類似度に基づくメトリクスを超えて、MLLMを評価するための談話駆動フレームワークを採用することの必要性を強調する。
我々のベンチマークである CORDIAL は、3つの異なる談話領域で様々な粒度でコヒーレンス関係を包含している。
論文 参考訳(メタデータ) (2025-02-16T22:54:44Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Large Language Model Adaptation for Financial Sentiment Analysis [2.0499240875882]
一般言語モデルは、金融に特化されたタスクでは不足する傾向にある。
1.5B未満のパラメータを持つ2つの基礎モデルは、幅広い戦略を用いて適応されている。
小型LLMは大規模モデルに匹敵する性能を有しつつ,パラメータやデータの観点からも効率がよいことを示す。
論文 参考訳(メタデータ) (2024-01-26T11:04:01Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。