論文の概要: Reasoning Beyond the Obvious: Evaluating Divergent and Convergent Thinking in LLMs for Financial Scenarios
- arxiv url: http://arxiv.org/abs/2507.18368v1
- Date: Thu, 24 Jul 2025 12:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.633907
- Title: Reasoning Beyond the Obvious: Evaluating Divergent and Convergent Thinking in LLMs for Financial Scenarios
- Title(参考訳): 金融シナリオにおけるLCMの多様性と収束性の評価
- Authors: Zhuang Qiang Bok, Watson Wei Khong Chua,
- Abstract要約: ConDiFi(コンディフィ、ConDiFi)は、金融業務におけるLLMにおける分散思考と収束思考を共同で評価するベンチマークである。
GPT-4oはノベルティとアクションビリティに劣り、DeepSeek-R1やCohere Command R+のようなモデルは、投資決定に適した行動可能な洞察を生み出すトップにランクインしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most reasoning benchmarks for LLMs emphasize factual accuracy or step-by-step logic. In finance, however, professionals must not only converge on optimal decisions but also generate creative, plausible futures under uncertainty. We introduce ConDiFi, a benchmark that jointly evaluates divergent and convergent thinking in LLMs for financial tasks. ConDiFi features 607 macro-financial prompts for divergent reasoning and 990 multi-hop adversarial MCQs for convergent reasoning. Using this benchmark, we evaluated 14 leading models and uncovered striking differences. Despite high fluency, GPT-4o underperforms on Novelty and Actionability. In contrast, models like DeepSeek-R1 and Cohere Command R+ rank among the top for generating actionable, insights suitable for investment decisions. ConDiFi provides a new perspective to assess reasoning capabilities essential to safe and strategic deployment of LLMs in finance.
- Abstract(参考訳): LLMのほとんどの推論ベンチマークは、実際の精度やステップバイステップのロジックを強調している。
しかし、金融業界では、プロフェッショナルは最適な決定に収束するだけでなく、不確実性の下で創造的で有望な未来も生み出す必要がある。
金融業務におけるLCMにおける分散思考と収束思考を共同で評価するベンチマークであるConDiFiを紹介する。
ConDiFiは、分岐推論のための607個のマクロファイナンシャルプロンプトと収束推論のための990個のマルチホップ対向MCQを備えている。
このベンチマークを用いて、14の主要なモデルを評価し、顕著な違いを明らかにした。
高周波にもかかわらず、GPT-4oはノベルティとアクティビリティに不利である。
対照的に、DeepSeek-R1やCohere Command R+のようなモデルが、投資決定に適した行動可能な洞察を生み出すトップにランクインしている。
ConDiFiは、金融におけるLLMの安全かつ戦略的展開に必要な推論能力を評価するための、新たな視点を提供する。
関連論文リスト
- Your AI, Not Your View: The Bias of LLMs in Investment Analysis [55.328782443604986]
大規模言語モデル(LLM)は、事前訓練されたパラメトリック知識とリアルタイム市場データとの相違により、しばしば知識の衝突に直面している。
本稿では, LLMに基づく投資分析において, 確認バイアスの定量的分析を行った。
われわれは、大口株に対する一貫した選好と、ほとんどのモデルにおけるコントラリアン戦略を観察する。
論文 参考訳(メタデータ) (2025-07-28T16:09:38Z) - Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis [1.3812010983144802]
我々は,様々な大規模言語モデル (LLM) が経済的文脈における人間ラベルの感情とどのように一致しているかを評価する。
本研究は, モデル設計のプロンプトや本質的設計による推論が, この課題における性能を向上させるものではないことを示唆している。
驚くべきことに、モデルと手法の最も正確かつ人間に整合した組み合わせは、CoT(Chain-of-Thought)を推進しないGPT-4oであった。
論文 参考訳(メタデータ) (2025-06-05T02:47:23Z) - JudgeLRM: Large Reasoning Models as a Judge [65.14085339820795]
我々は,Large Language Models (LLMs) の判断が推論能力の強化から真に恩恵を受けるかどうかを考察する。
本稿では、強化学習(RL)を用いて学習した判断指向LLMのファミリーであるジャッジLRMを紹介する。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Fino1: On the Transferability of Reasoning-Enhanced LLMs and Reinforcement Learning to Finance [35.617409883103335]
FinReasonは、マルチテーブル分析、長期コンテキスト推論、方程式ベースのタスクをカバーする最初の財務推論ベンチマークである。
7つのQAデータセットから抽出した、ファイナンスのための最初のオープンな高忠実度CoTコーパスであるFinCoTを紹介する。
我々は、教師付き微調整とGRPOベースのRLを用いて訓練された最初のオープンファイナンシャル推論モデルであるFin-o1を開発した。
論文 参考訳(メタデータ) (2025-02-12T05:13:04Z) - Chat Bankman-Fried: an Exploration of LLM Alignment in Finance [4.892013668424246]
司法管轄区域はAIの安全性に関する法律を制定するので、アライメントの概念を定義して測定する必要がある。
本稿では,大規模言語モデル(LLM)が比較的未探索の財務状況において,倫理的・法的基準に準拠するか否かを評価するための実験的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-01T08:56:17Z) - DeFine: Decision-Making with Analogical Reasoning over Factor Profiles [35.9909472797192]
textscDeFineは複雑なシナリオから確率係数プロファイルを構築するモジュラーフレームワークである。
次に、これらのプロファイルと類似の推論を統合して、新しい状況における重要な決定をLCMに導く。
このアプローチは、不確実性の下での意思決定が不可欠であるコンサルティングや金融交渉といった分野において特に有用である。
論文 参考訳(メタデータ) (2024-10-02T17:29:34Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。