論文の概要: Can AI Read Between The Lines? Benchmarking LLMs On Financial Nuance
- arxiv url: http://arxiv.org/abs/2505.16090v1
- Date: Thu, 22 May 2025 00:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.95084
- Title: Can AI Read Between The Lines? Benchmarking LLMs On Financial Nuance
- Title(参考訳): AIは行間を読むことができるか? LLMを財務状況でベンチマークする
- Authors: Dominick Kubica, Dylan T. Gordon, Nanami Emura, Derleen Saini, Charlie Goldenberg,
- Abstract要約: 本稿では、チャーリー・ゴールデンバーグ教授が主導するサンタクララ・Microsoft Practicum Projectの成果を紹介する。
MicrosoftのCopilot、OpenAIのChatGPT、GoogleのGemini、財務テキストの感情分析のための従来の機械学習モデルのパフォーマンスをベンチマークする。
この分析はMicrosoftの決算書の書き起こしを使って、LLM由来の感情が市場感情と株価の動きとどのように相関するかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As of 2025, Generative Artificial Intelligence (GenAI) has become a central tool for productivity across industries. Beyond text generation, GenAI now plays a critical role in coding, data analysis, and research workflows. As large language models (LLMs) continue to evolve, it is essential to assess the reliability and accuracy of their outputs, especially in specialized, high-stakes domains like finance. Most modern LLMs transform text into numerical vectors, which are used in operations such as cosine similarity searches to generate responses. However, this abstraction process can lead to misinterpretation of emotional tone, particularly in nuanced financial contexts. While LLMs generally excel at identifying sentiment in everyday language, these models often struggle with the nuanced, strategically ambiguous language found in earnings call transcripts. Financial disclosures frequently embed sentiment in hedged statements, forward-looking language, and industry-specific jargon, making it difficult even for human analysts to interpret consistently, let alone AI models. This paper presents findings from the Santa Clara Microsoft Practicum Project, led by Professor Charlie Goldenberg, which benchmarks the performance of Microsoft's Copilot, OpenAI's ChatGPT, Google's Gemini, and traditional machine learning models for sentiment analysis of financial text. Using Microsoft earnings call transcripts, the analysis assesses how well LLM-derived sentiment correlates with market sentiment and stock movements and evaluates the accuracy of model outputs. Prompt engineering techniques are also examined to improve sentiment analysis results. Visualizations of sentiment consistency are developed to evaluate alignment between tone and stock performance, with sentiment trends analyzed across Microsoft's lines of business to determine which segments exert the greatest influence.
- Abstract(参考訳): 2025年現在、ジェネレーティブ・人工知能(GenAI)は産業全体の生産性のための中心的なツールとなっている。
テキスト生成以外にも、GenAIはコーディング、データ分析、研究ワークフローにおいて重要な役割を担っている。
大規模言語モデル(LLM)が進化を続けるにつれて、特に金融のような専門分野において、アウトプットの信頼性と正確性を評価することが不可欠である。
現代のLLMはテキストを数値ベクトルに変換し、コサイン類似性探索などの操作で応答を生成する。
しかし、この抽象的なプロセスは感情的なトーンの誤解を招きかねない。
LLMは概して日常言語における感情の識別に長けているが、これらのモデルは決算報告の書き起こしに見られる曖昧で戦略的に曖昧な言語に苦しむことが多い。
財務情報開示は、ヘッジドステートメントや前向きな言語、業界固有の用語に感情を埋め込むことが多いため、AIモデルだけでなく、人間のアナリストでさえ一貫して解釈することが難しくなる。
本稿は、MicrosoftのCopilot、OpenAIのChatGPT、GoogleのGemini、財務テキストの感情分析のための従来の機械学習モデルのパフォーマンスをベンチマークする、Charlie Goldenberg教授率いるSanta Clara Microsoft Practicum Projectの成果を提示する。
この分析は、Microsoftの収支記録を用いて、LLM由来の感情が市場感情や株価の動きとどのように相関しているかを評価し、モデルアウトプットの正確さを評価する。
また、感情分析結果を改善するために、プロンプトエンジニアリング技術についても検討した。
感情の一貫性の可視化は、トーンとストックパフォーマンスの整合性を評価するために開発され、Microsoftのビジネスラインで分析された感情傾向によって、どのセグメントが最も影響力を持つかを判断する。
関連論文リスト
- Evaluating Financial Sentiment Analysis with Annotators Instruction Assisted Prompting: Enhancing Contextual Interpretation and Stock Prediction Accuracy [1.481550828146527]
アノテータによるAIAP(Instruction Assisted Prompt)は、人間と機械の両方の解釈における感情の理解を標準化することを目的としている。
We use a new data, WSBS, derived from the WallStreetBets subreddit to demonstrate how AIAP significantly enhances LLM performance。
この文脈認識アプローチは、パフォーマンスの漸進的な向上をもたらし、また革新的な感情インデクシング手法も導入する。
論文 参考訳(メタデータ) (2025-05-09T19:44:04Z) - Bridging Language Models and Financial Analysis [49.361943182322385]
大規模言語モデル(LLM)の急速な進歩は、自然言語処理における変換可能性の解放をもたらした。
財務データは、しばしばテキストコンテンツ、数値表、および視覚チャートの複雑な関係に埋め込まれる。
LLM研究における急速なイノベーションのペースにもかかわらず、金融業界における彼らの実践的採用には大きなギャップが残っている。
論文 参考訳(メタデータ) (2025-03-14T01:35:20Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Chinese Fine-Grained Financial Sentiment Analysis with Large Language
Models [4.993565079216378]
そこで我々は,企業早期警戒のための,中国の財務感情分析データセットFinChina SAを提案する。
われわれのデータセットは、現実の財務感情分析タスクの探索を進めるための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2023-06-25T02:24:30Z) - Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of
General-Purpose Large Language Models [18.212210748797332]
本稿では,これらの問題に対処する簡易かつ効果的な命令チューニング手法を提案する。
実験では, 最先端の教師付き感情分析モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-22T03:56:38Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。