論文の概要: All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- arxiv url: http://arxiv.org/abs/2601.04160v1
- Date: Wed, 07 Jan 2026 18:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.71404
- Title: All That Glisters Is Not Gold: A Benchmark for Reference-Free Counterfactual Financial Misinformation Detection
- Title(参考訳): Glistersが金ではないものすべて: 参照なしのノンファクトな財務誤情報検出のためのベンチマーク
- Authors: Yuechen Jiang, Zhiwei Liu, Yupeng Cao, Yueru He, Ziyang Xu, Chen Xu, Zhiyang Deng, Prayag Tiwari, Xi Chen, Alejandro Lopez-Lira, Jimin Huang, Junichi Tsujii, Sophia Ananiadou,
- Abstract要約: RFC Benchは、現実的なニュースの下で財務的な誤情報に関する大規模な言語モデルを評価するためのベンチマークである。
このベンチマークでは、2つの補完的なタスクが定義されている。
- 参考スコア(独自算出の注目度): 67.89888669159899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RFC Bench, a benchmark for evaluating large language models on financial misinformation under realistic news. RFC Bench operates at the paragraph level and captures the contextual complexity of financial news where meaning emerges from dispersed cues. The benchmark defines two complementary tasks: reference free misinformation detection and comparison based diagnosis using paired original perturbed inputs. Experiments reveal a consistent pattern: performance is substantially stronger when comparative context is available, while reference free settings expose significant weaknesses, including unstable predictions and elevated invalid outputs. These results indicate that current models struggle to maintain coherent belief states without external grounding. By highlighting this gap, RFC Bench provides a structured testbed for studying reference free reasoning and advancing more reliable financial misinformation detection in real world settings.
- Abstract(参考訳): RFC Benchは、現実的なニュースの下で、財務的誤情報に関する大規模言語モデルを評価するためのベンチマークである。
RFC Benchは段落レベルで動作し、分散された手がかりから意味が現れる金融ニュースのコンテキスト的複雑さを捉えます。
このベンチマークは、2つの補完的なタスクを定義している。
比較コンテキストが利用可能である場合にはパフォーマンスが大幅に向上する一方、参照自由設定は不安定な予測や不正な出力の増大など、重大な弱点を顕在化している。
これらの結果は、現在のモデルは、外部の根拠なしにコヒーレントな信念状態を維持するのに苦労していることを示している。
このギャップを強調することで、RFC Benchは、参照自由推論を研究し、現実の環境でより信頼性の高い金銭的誤情報検出を進めるための構造化テストベッドを提供する。
関連論文リスト
- Cross-Examination Framework: A Task-Agnostic Diagnostic for Information Fidelity in Text-to-Text Generation [1.405010905897415]
BLEUやBERTScoreといった従来のメトリクスは、生成テキストからテキストへのタスクのセマンティックな忠実さをキャプチャできない。
我々は,参照のない多次元評価にCEF(Cross-Examination Framework)を適用した。
CEFは各テキストから検証可能な質問を生成し、相互検査を行い、3つの解釈可能なスコア(カバレッジ、整合性、一貫性)を導出する。
論文 参考訳(メタデータ) (2026-01-27T08:30:13Z) - AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains [3.721111684544962]
大型言語モデル(LLM)における幻覚は、誤報の拡散と公衆信頼の低下に寄与する。
本稿では,最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介する。
我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
論文 参考訳(メタデータ) (2026-01-21T22:47:59Z) - PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文 参考訳(メタデータ) (2026-01-07T04:26:12Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Measuring Consistency in Text-based Financial Forecasting Models [10.339586273664725]
FinTrustは財務文書の論理的一貫性を評価する評価ツールである。
金融予測のための最先端NLPモデルの整合性は乏しいことを示す。
意味保存による性能劣化の分析は,現在のテキストベースの手法が市場情報の堅牢な予測に適していないことを示唆している。
論文 参考訳(メタデータ) (2023-05-15T10:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。