論文の概要: All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- arxiv url: http://arxiv.org/abs/2601.04160v1
- Date: Wed, 07 Jan 2026 18:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.71404
- Title: All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- Title(参考訳): Glistersが金ではないものすべて: 参照なしのノンファクトな財務誤情報検出のためのベンチマーク
- Authors: Yuechen Jiang, Zhiwei Liu, Yupeng Cao, Yueru He, Ziyang Xu, Chen Xu, Zhiyang Deng, Prayag Tiwari, Xi Chen, Alejandro Lopez-Lira, Jimin Huang, Junichi Tsujii, Sophia Ananiadou,
- Abstract要約: RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。
このベンチマークでは、2つの補完的なタスクが定義されている。
- 参考スコア(独自算出の注目度): 67.89888669159899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RFC Bench, a benchmark for evaluating large language models on financial misinformation under realistic news. RFC Bench operates at the paragraph level and captures the contextual complexity of financial news where meaning emerges from dispersed cues. The benchmark defines two complementary tasks: reference free misinformation detection and comparison based diagnosis using paired original perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative context is available, while reference free settings expose significant weaknesses, including unstable predictions and elevated invalid outputs. These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC Bench provides a structured testbed for studying reference free reasoning and advancing more reliable financial misinformation detection in real world settings.
- Abstract(参考訳): RFC Benchは、現実的なニュースの下で、財務的誤情報に関する大規模言語モデルを評価するためのベンチマークである。
RFC Benchは段落レベルで動作し、分散された手がかりから意味が現れる金融ニュースのコンテキスト的複雑さを捉えます。
このベンチマークは、2つの補完的なタスクを定義している。
比較コンテキストが利用可能である場合にはパフォーマンスが大幅に向上する一方、参照自由設定は不安定な予測や不正な出力の増大など、重大な弱点を顕在化している。
これらの結果は、現在のモデルは、外部の根拠なしにコヒーレントな信念状態を維持するのに苦労していることを示している。
このギャップを強調することで、RFC Benchは、参照自由推論を研究し、現実の環境でより信頼性の高い金銭的誤情報検出を進めるための構造化テストベッドを提供する。
関連論文リスト
- ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Measuring Consistency in Text-based Financial Forecasting Models [10.339586273664725]
FinTrustは財務文書の論理的一貫性を評価する評価ツールである。
金融予測のための最先端NLPモデルの整合性は乏しいことを示す。
意味保存による性能劣化の分析は,現在のテキストベースの手法が市場情報の堅牢な予測に適していないことを示唆している。
論文 参考訳(メタデータ) (2023-05-15T10:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。