論文の概要: FinNuE: Exposing the Risks of Using BERTScore for Numerical Semantic Evaluation in Finance
- arxiv url: http://arxiv.org/abs/2511.09997v1
- Date: Fri, 14 Nov 2025 01:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.625477
- Title: FinNuE: Exposing the Risks of Using BERTScore for Numerical Semantic Evaluation in Finance
- Title(参考訳): FinNuE:ファイナンスにおける数値的セマンティック評価にBERTScoreを使用するリスクを露呈する
- Authors: Yu-Shiang Huang, Yun-Yu Lee, Tzu-Hsin Chou, Che Lin, Chuan-Ju Wang,
- Abstract要約: FinNuEは、決算報告、規制書類、ソーシャルメディア、ニュース記事などにわたる数値摂動を制御して構築された診断データセットである。
FinNuEを用いて、BERTScoreは意味論的に重要な数値の違いを区別できず、しばしば金銭的に異なるテキストペアに高い類似度スコアを割り当てることを示した。
- 参考スコア(独自算出の注目度): 8.35457135597292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BERTScore has become a widely adopted metric for evaluating semantic similarity between natural language sentences. However, we identify a critical limitation: BERTScore exhibits low sensitivity to numerical variation, a significant weakness in finance where numerical precision directly affects meaning (e.g., distinguishing a 2% gain from a 20% loss). We introduce FinNuE, a diagnostic dataset constructed with controlled numerical perturbations across earnings calls, regulatory filings, social media, and news articles. Using FinNuE, demonstrate that BERTScore fails to distinguish semantically critical numerical differences, often assigning high similarity scores to financially divergent text pairs. Our findings reveal fundamental limitations of embedding-based metrics for finance and motivate numerically-aware evaluation frameworks for financial NLP.
- Abstract(参考訳): BERTScoreは、自然言語文間の意味的類似性を評価するための広く採用されている指標となっている。
BERTScoreは数値変動に対する感度が低く、数値精度が直接意味に影響を及ぼす金融の重大な弱点である(例えば、20%の損失から2%の利得を区別する)。
我々はFinNuEについて紹介する。FinNuEは、会計コール、規制書類、ソーシャルメディア、ニュース記事などにわたる数値摂動を制御した診断データセットである。
FinNuEを用いて、BERTScoreは意味論的に重要な数値の違いを区別できず、しばしば金銭的に異なるテキストペアに高い類似度スコアを割り当てることを示した。
本研究は,金融NLPのための数値認識評価フレームワークの構築とモチベーションのための埋め込み型メトリクスの基本的な限界を明らかにするものである。
関連論文リスト
- FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - NumHTML: Numeric-Oriented Hierarchical Transformer Model for Multi-task
Financial Forecasting [17.691653056521904]
本稿では,マルチモーダル・アライン・ファイナンス・コールデータを用いて,株価リターンと金融リスクを予測する数値指向階層型トランスフォーマーモデルについて述べる。
実世界の公開データセットを用いて,いくつかの最先端ベースラインに対するNum HTMLの総合的な評価結果を示す。
論文 参考訳(メタデータ) (2022-01-05T10:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。