論文の概要: Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2506.04574v1
- Date: Thu, 05 Jun 2025 02:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.499261
- Title: Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis
- Title(参考訳): 推論・再考:金融知覚分析に基づく大規模言語モデルの評価
- Authors: Dimitris Vamvourellis, Dhagash Mehta,
- Abstract要約: 我々は,様々な大規模言語モデル (LLM) が経済的文脈における人間ラベルの感情とどのように一致しているかを評価する。
本研究は, モデル設計のプロンプトや本質的設計による推論が, この課題における性能を向上させるものではないことを示唆している。
驚くべきことに、モデルと手法の最も正確かつ人間に整合した組み合わせは、CoT(Chain-of-Thought)を推進しないGPT-4oであった。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the effectiveness of large language models (LLMs), including reasoning-based and non-reasoning models, in performing zero-shot financial sentiment analysis. Using the Financial PhraseBank dataset annotated by domain experts, we evaluate how various LLMs and prompting strategies align with human-labeled sentiment in a financial context. We compare three proprietary LLMs (GPT-4o, GPT-4.1, o3-mini) under different prompting paradigms that simulate System 1 (fast and intuitive) or System 2 (slow and deliberate) thinking and benchmark them against two smaller models (FinBERT-Prosus, FinBERT-Tone) fine-tuned on financial sentiment analysis. Our findings suggest that reasoning, either through prompting or inherent model design, does not improve performance on this task. Surprisingly, the most accurate and human-aligned combination of model and method was GPT-4o without any Chain-of-Thought (CoT) prompting. We further explore how performance is impacted by linguistic complexity and annotation agreement levels, uncovering that reasoning may introduce overthinking, leading to suboptimal predictions. This suggests that for financial sentiment classification, fast, intuitive "System 1"-like thinking aligns more closely with human judgment compared to "System 2"-style slower, deliberative reasoning simulated by reasoning models or CoT prompting. Our results challenge the default assumption that more reasoning always leads to better LLM decisions, particularly in high-stakes financial applications.
- Abstract(参考訳): 推論モデルや非推論モデルを含む大規模言語モデル(LLM)のゼロショット財務感情分析における有効性について検討する。
ドメインの専門家がアノテートしたFinancial PhraseBankのデータセットを用いて、さまざまなLCMと戦略が、財務状況における人間ラベルの感情とどのように一致しているかを評価する。
我々は、システム1(高速かつ直感的)やシステム2(スローかつ故意)の思考をシミュレートする異なる促進パラダイムの下で、3つの独自のLCM(GPT-4o, GPT-4.1, o3-mini)を比較し、金融感情分析に基づく2つの小さなモデル(FinBERT-Prosus, FinBERT-Tone)と比較した。
本研究は, モデル設計のプロンプトや本質的設計による推論が, この課題における性能を向上させるものではないことを示唆している。
驚くべきことに、モデルと手法の最も正確かつ人間に整合した組み合わせは、CoT(Chain-of-Thought)を推進しないGPT-4oであった。
さらに、言語的複雑性とアノテーション合意のレベルによってパフォーマンスがどう影響するかを考察し、推論が過度に考え、最適以下の予測をもたらす可能性があることを明らかにする。
これは、金融感情分類において、高速で直感的な「システム1」的な思考は、推論モデルやCoTプロンプトによってシミュレートされた「システム2」スタイルの遅い熟考的推論と比較して、人間の判断とより密接に一致していることを示している。
我々の結果は、特に高額の金融アプリケーションにおいて、より多くの推論が常により良いLCM決定につながるというデフォルトの仮定に挑戦する。
関連論文リスト
- Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models [51.85792055455284]
大規模言語モデル(LLM)の最近の進歩は、複雑な推論タスクを実行する能力を大幅に強化している。
システム1推論は計算効率が良いが、最適以下の性能をもたらす。
システム2推論(System 2 reasoning)は、思考の遅さや非効率性、不必要な推論の振る舞いにより、かなりの計算コストを発生させることが多い。
論文 参考訳(メタデータ) (2025-03-31T17:58:07Z) - Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance [32.516564836540745]
大規模言語モデル(LLM)は、強力な一般的な推論能力を示しているが、財務的推論におけるその効果はいまだに解明されていない。
我々は,4つの複雑な財務推論タスクにおいて,24の最先端の一般および推論に焦点を当てたLCMを評価した。
本稿では,Fino1-8BとFinoBの2つのドメイン適応モデルを提案する。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - FinLlama: Financial Sentiment Classification for Algorithmic Trading Applications [2.2661367844871854]
大規模言語モデル(LLM)はこの文脈で使用することができるが、財務に特化せず、重要な計算資源を必要とする傾向がある。
我々はLlama 2 7Bの基礎モデルに基づく新しいアプローチを導入し,その生成特性と包括的言語操作の利点を享受する。
これは、Llama2 7Bモデルを教師付き財務感情分析データの一部に微調整することで達成される。
論文 参考訳(メタデータ) (2024-03-18T22:11:00Z) - Are LLMs Rational Investors? A Study on Detecting and Reducing the Financial Bias in LLMs [44.53203911878139]
大規模言語モデル(LLM)は、複雑な市場データとトレンドを解釈する金融分析において、ますます採用されている。
Financial Bias Indicators (FBI)は、Bias Unveiler、Bias Detective、Bias Tracker、Bias Antidoteといったコンポーネントを備えたフレームワークである。
我々は、23のLLMを評価し、財務因果知識に基づく非バイアス化手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T04:26:08Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。