論文の概要: MoRFI: Monotonic Sparse Autoencoder Feature Identification
- arxiv url: http://arxiv.org/abs/2604.26866v1
- Date: Wed, 29 Apr 2026 16:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.492973
- Title: MoRFI: Monotonic Sparse Autoencoder Feature Identification
- Title(参考訳): MoRFI:モノトニックスパースオートエンコーダの特徴同定
- Authors: Dimitris Dimakopoulos, Shay B. Cohen, Ioannis Konstas,
- Abstract要約: 大規模言語モデル(LLM)は、訓練前の段階で、次のトークン予測を通じて、実際の知識のほとんどを取得する。
その後の訓練の段階は、しばしばパラメトリック知識よりも新しい事実を導入し、幻覚を引き起こす。
閉書QAに焦点をあてて制御された微調整実験を行い,幻覚に因果的に寄与する潜在方向を見出す。
- 参考スコア(独自算出の注目度): 27.973959474864127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) acquire most of their factual knowledge during the pre-training stage, through next token prediction. Subsequent stages of post-training often introduce new facts outwith the parametric knowledge, giving rise to hallucinations. While it has been demonstrated that supervised fine-tuning (SFT) on new knowledge may exacerbate the problem, the underlying mechanisms are still poorly understood. We conduct a controlled fine-tuning experiment, focusing on closed-book QA, and find latent directions that causally contribute to hallucinations. Specifically, we fine-tune Llama 3.1 8B, Gemma 2 9B and Mistral 7B v03 on seven distinct single QA datasets, controlling for the percentage of new knowledge and number of training epochs. By measuring performance on the test set, we validate that incrementally introducing new knowledge increases hallucinations, with the effect being more pronounced with prolonged training. We leverage pre-trained sparse autoencoders (SAEs) to analyze residual stream activations across various checkpoints for each model and propose Monotonic Relationship Feature Identification (MoRFI) for capturing causally relevant latents. MoRFI filters SAE features that respond monotonically to controlled fine-tuning data mixtures of a target property. Our findings show that exposure to unknown facts disrupts the model's ability to retrieve stored knowledge along a set of directions in the residual stream. Our pipeline reliably discovers them across distinct models, recovering knowledge through single-latent interventions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練前の段階で、次のトークン予測を通じて、実際の知識のほとんどを取得する。
その後の訓練の段階は、しばしばパラメトリック知識よりも新しい事実を導入し、幻覚を引き起こす。
新たな知識に対する教師付き微調整(SFT)が問題を悪化させることは実証されているが、根底にあるメカニズムはいまだに理解されていない。
閉書QAに焦点をあてて制御された微調整実験を行い,幻覚に因果的に寄与する潜在方向を見出す。
具体的には、7つの異なるQAデータセット上でLlama 3.1 8B、Gemma 2 9B、Mistral 7B v03を微調整し、新しい知識のパーセンテージとトレーニングエポックの数を制御する。
テストセットのパフォーマンスを計測することにより,新たな知識の導入によって幻覚が増加し,その効果が長期トレーニングでより顕著になることを確認した。
我々は,事前学習されたスパースオートエンコーダ(SAE)を利用して,各モデルに対する各種チェックポイント間の残ストリームアクティベーションを分析し,因果関係の潜伏者を捕捉するためのモノトニック関係特徴同定(MoRFI)を提案する。
MoRFIは、ターゲットプロパティの制御された微調整データ混合に単調に応答するSAE機能をフィルタリングする。
実験の結果,未知の事実に曝露すると,残流の一連の方向に沿って記憶された知識を復元する能力が阻害されることが判明した。
私たちのパイプラインは、異なるモデルにまたがってそれらを確実に発見し、単一レイテンシの介入を通じて知識を回復します。
関連論文リスト
- Measuring the Impact of Lexical Training Data Coverage on Hallucination Detection in Large Language Models [26.89705770151822]
大規模言語モデル(LLM)における幻覚は、特にオープンドメインの質問応答において、根本的な課題である。
これまでの研究は、トークンレベルのエントロピーや生成一貫性といったモデル内部信号による幻覚の検出を試みた。
本研究では,データカバレッジ自体が検出信号として機能するかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-22T06:59:55Z) - Detecting Token-Level Hallucinations Using Variance Signals: A Reference-Free Approach [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な生成能力を示したが、幻覚に弱いままである。
複数世代にわたるトークンログ確率のばらつきを利用した,参照不要なトークンレベルの幻覚検出フレームワークを提案する。
我々のアプローチは、モデルに依存しず、解釈可能であり、リアルタイムまたはポストホック分析に適している。
論文 参考訳(メタデータ) (2025-07-05T19:20:59Z) - Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。
LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。
我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文 参考訳(メタデータ) (2024-12-30T10:29:18Z) - Hallucination Detox: Sensitivity Dropout (SenD) for Large Language Model Training [17.347067827911406]
トレーニングダイナミクスの不確かさと幻覚の出現との関係について検討する。
本稿では,学習中の幻覚のばらつきを軽減するための新しいトレーニングプロトコルであるSensitivity Dropout (SenD)を提案する。
SenDは、PythiaとMetaのLlamaモデルのテスト時の信頼性を最大17%向上し、Wikipedia、メディカル、法律、コーディングドメインの事実精度を向上させる。
論文 参考訳(メタデータ) (2024-10-20T18:18:23Z) - Exploring Diffusion Time-steps for Unsupervised Representation Learning [72.43246871893936]
拡散時間ステップと隠れ属性を結合する理論的枠組みを構築する。
CelebA、FFHQ、Bedroomのデータセットでは、学習された機能は分類を大幅に改善する。
論文 参考訳(メタデータ) (2024-01-21T08:35:25Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。