論文の概要: Dissecting the Ledger: Locating and Suppressing "Liar Circuits" in Financial Large Language Models
- arxiv url: http://arxiv.org/abs/2511.21756v1
- Date: Mon, 24 Nov 2025 11:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.212743
- Title: Dissecting the Ledger: Locating and Suppressing "Liar Circuits" in Financial Large Language Models
- Title(参考訳): 金融大言語モデルにおける「リアーサーキット」の配置と抑制
- Authors: Soham Mirajkar,
- Abstract要約: 大規模言語モデル(LLM)は、高額の金融ドメインにますますデプロイされている。
LLMは算術演算を行う際に特定の再現可能な幻覚に悩まされる。
内因性幻覚検出のための機械的アプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in high-stakes financial domains, yet they suffer from specific, reproducible hallucinations when performing arithmetic operations. Current mitigation strategies often treat the model as a black box. In this work, we propose a mechanistic approach to intrinsic hallucination detection. By applying Causal Tracing to the GPT-2 XL architecture on the ConvFinQA benchmark, we identify a dual-stage mechanism for arithmetic reasoning: a distributed computational scratchpad in middle layers (L12-L30) and a decisive aggregation circuit in late layers (specifically Layer 46). We verify this mechanism via an ablation study, demonstrating that suppressing Layer 46 reduces the model's confidence in hallucinatory outputs by 81.8%. Furthermore, we demonstrate that a linear probe trained on this layer generalizes to unseen financial topics with 98% accuracy, suggesting a universal geometry of arithmetic deception.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高額な金融ドメインにますます展開されているが、算術演算を行う際には、特定の再現可能な幻覚に悩まされている。
現在の緩和戦略は、しばしばモデルをブラックボックスとして扱う。
本研究では,内因性幻覚検出のための機械的アプローチを提案する。
ConvFinQAベンチマークのGPT-2 XLアーキテクチャにCausal Tracingを適用することで、中間層(L12-L30)における分散計算スクラッチパッドと、後期層(特に層46)における決定的な集約回路という、算術的推論のための2段階のメカニズムを同定する。
我々はこのメカニズムをアブレーション研究により検証し、第46層抑制は幻覚出力に対するモデルの信頼性を81.8%低下させることを示した。
さらに、この層上で訓練された線形プローブが、98%の精度で、見つからない金融トピックに一般化されることを示し、算術的騙しの普遍幾何学を示唆する。
関連論文リスト
- Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z) - Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文 参考訳(メタデータ) (2024-07-17T08:21:06Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Shaping Deep Feature Space towards Gaussian Mixture for Visual
Classification [74.48695037007306]
視覚分類のためのディープニューラルネットワークのためのガウス混合損失関数(GM)を提案する。
分類マージンと可能性正規化により、GM損失は高い分類性能と特徴分布の正確なモデリングの両方を促進する。
提案したモデルは、追加のトレーニング可能なパラメータを使わずに、簡単かつ効率的に実装できる。
論文 参考訳(メタデータ) (2020-11-18T03:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。