論文の概要: RealFin: How Well Do LLMs Reason About Finance When Users Leave Things Unsaid?
- arxiv url: http://arxiv.org/abs/2602.07096v1
- Date: Fri, 06 Feb 2026 13:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.444606
- Title: RealFin: How Well Do LLMs Reason About Finance When Users Leave Things Unsaid?
- Title(参考訳): RealFin: LLMはユーザーが何かを残した時に財務についてどんな理由があるのか?
- Authors: Yuyang Dai, Yan Lin, Zhuohan Xie, Yuxia Wang,
- Abstract要約: 本稿では,試験スタイルの質問から本質的な前提を体系的に取り除き,金銭的推論を評価するベンチマークREALFINを紹介する。
汎用モデルは過度にコミットされ、推測される傾向にあるが、金融特化モデルの多くは、欠落した施設を明確に識別することができない。
これらの結果は、現在の評価における重要なギャップを浮き彫りにして、信頼できる金融モデルが、質問に答えるべきでないことを知らなければならないことを示す。
- 参考スコア(独自算出の注目度): 15.081940501866844
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reliable financial reasoning requires knowing not only how to answer, but also when an answer cannot be justified. In real financial practice, problems often rely on implicit assumptions that are taken for granted rather than stated explicitly, causing problems to appear solvable while lacking enough information for a definite answer. We introduce REALFIN, a bilingual benchmark that evaluates financial reasoning by systematically removing essential premises from exam-style questions while keeping them linguistically plausible. Based on this, we evaluate models under three formulations that test answering, recognizing missing information, and rejecting unjustified options, and find consistent performance drops when key conditions are absent. General-purpose models tend to over-commit and guess, while most finance-specialized models fail to clearly identify missing premises. These results highlight a critical gap in current evaluations and show that reliable financial models must know when a question should not be answered.
- Abstract(参考訳): 信頼性の高い金銭的推論は、答えの仕方を知るだけでなく、答えが正当化できない場合にも必要である。
実際の金融慣行では、問題は明示的に述べられるのではなく、許可される暗黙の仮定に頼り、明確な答えに十分な情報が不足しながら解決可能なように見える。
本稿では,言語学的信頼性を維持しつつ,試験スタイルの質問から本質的な前提を体系的に取り除き,金銭的推論を評価するためのバイリンガル・ベンチマークREALFINを紹介する。
そこで本研究では,3つの定式化モデルを用いて,解答の検証,欠落情報の認識,不適切な選択肢の拒否,キー条件の欠如による一貫した性能低下の判定を行う。
汎用モデルは過度にコミットされ、推測される傾向にあるが、金融特化モデルの多くは、欠落した施設を明確に識別することができない。
これらの結果は、現在の評価における重要なギャップを浮き彫りにして、信頼できる金融モデルが、質問に答えるべきでないことを知らなければならないことを示す。
関連論文リスト
- Knowing What's Missing: Assessing Information Sufficiency in Question Answering [3.8786514101828167]
本稿では,堅牢な十分性モデリングのための構造化Identify-then-Verifyフレームワークを提案する。
提案手法は,多様なマルチホップおよび実QAデータセット間で確立されたベースラインに対して評価する。
論文 参考訳(メタデータ) (2025-12-06T15:58:22Z) - FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。
回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-07T20:06:15Z) - XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning [28.967959142733903]
金融問題の解決における大規模言語モデルの能力を評価するための新しいベンチマークであるXFinBenchを紹介する。
O1は67.3%の精度で最高性能のテキストのみのモデルであるが、それでも12.5%の人間専門家にはかなり遅れている。
我々は,知識増強分析のための3,032の財務用語を持つ知識銀行を構築し,関連する知識が小さなオープンソースモデルに一貫した精度の向上をもたらすことを発見した。
論文 参考訳(メタデータ) (2025-08-20T15:23:35Z) - AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions [32.871820908561936]
AbstentionBenchは、20の多様なデータセットにわたる禁忌を評価するためのベンチマークである。
微調整による推論は、数学や科学の分野でも無視される。
論文 参考訳(メタデータ) (2025-06-10T17:57:30Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach [6.911426601915051]
本稿では、金融特化文脈におけるAIモデル、特に大規模言語とマルチモーダルモデルがどの程度の理由を持つかを評価するために設計された新しいベンチマークを紹介する。
本稿では,過去のモデル誤りやフィードバックを利用して,微調整を必要とせず,推論をガイドする誤り認識学習フレームワークを提案する。
この結果は、視覚的理解と数学的論理学における永続的な課題を強調し、金融AIシステムにおける自己反射的推論の可能性を実証している。
論文 参考訳(メタデータ) (2025-04-22T07:25:03Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。