論文の概要: Training-free Truthfulness Detection via Value Vectors in LLMs
- arxiv url: http://arxiv.org/abs/2509.17932v1
- Date: Mon, 22 Sep 2025 15:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.478725
- Title: Training-free Truthfulness Detection via Value Vectors in LLMs
- Title(参考訳): LLMにおける値ベクトルによる無訓練真性検出
- Authors: Runheng Liu, Heyan Huang, Xingchen Xiao, Zhijing Wu,
- Abstract要約: 大規模な言語モデルは、しばしば事実的に誤ったアウトプットを生成し、コンテンツの真偽を検出するための努力を動機付けている。
最近のトレーニングフリー手法であるNoVoは、モデル自体から統計パターンを活用することでこの問題に対処している。
モジュール内のある値ベクトルは真性のない統計パターンを示す。
本稿では,これらの値ベクトルを活用して内容の真偽を検出する,シンプルかつ解釈可能なトレーニング手法であるTruthVを提案する。
- 参考スコア(独自算出の注目度): 37.5974102248718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often generate factually incorrect outputs, motivating efforts to detect the truthfulness of their content. Most existing approaches rely on training probes over internal activations, but these methods suffer from scalability and generalization issues. A recent training-free method, NoVo, addresses this challenge by exploiting statistical patterns from the model itself. However, it focuses exclusively on attention mechanisms, potentially overlooking the MLP module-a core component of Transformer models known to support factual recall. In this paper, we show that certain value vectors within MLP modules exhibit truthfulness-related statistical patterns. Building on this insight, we propose TruthV, a simple and interpretable training-free method that detects content truthfulness by leveraging these value vectors. On the NoVo benchmark, TruthV significantly outperforms both NoVo and log-likelihood baselines, demonstrating that MLP modules-despite being neglected in prior training-free efforts-encode rich and useful signals for truthfulness detection. These findings offer new insights into how truthfulness is internally represented in LLMs and motivate further research on scalable and interpretable truthfulness detection.
- Abstract(参考訳): 大規模な言語モデルは、しばしば事実的に誤ったアウトプットを生成し、コンテンツの真偽を検出するための努力を動機付けている。
既存のほとんどのアプローチは内部アクティベーションよりもトレーニングプローブに依存しているが、これらの手法はスケーラビリティと一般化の問題に悩まされている。
最近のトレーニングフリー手法であるNoVoは、モデル自体から統計パターンを活用することでこの問題に対処している。
しかし、これは注意機構に特化しており、事実上のリコールをサポートすることが知られているTransformerモデルのコアコンポーネントであるMPPモジュールを見渡す可能性がある。
本稿では, MLPモジュール内の特定の値ベクトルが真理性関連統計パターンを示すことを示す。
この知見に基づいて、これらの値ベクトルを利用してコンテンツ真偽を検出する、単純かつ解釈可能なトレーニング不要な方法であるTruthVを提案する。
NoVoベンチマークでは、TruthV は NoVo と log-likelihood の両方のベースラインを著しく上回り、MLP モジュールは事前のトレーニング不要な取り組みに無視されているにもかかわらず、リッチで有用な信号をエンコードして真偽の検出を行うことを示した。
これらの発見は、LLMの内部で真理性がどのように表現されているかについての新しい洞察を与え、スケーラブルで解釈可能な真理性検出に関するさらなる研究を動機付けている。
関連論文リスト
- Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs [19.08691637612329]
大規模言語モデル(LLM)のための機械学習(MU)は、特定の望ましくないデータや知識を訓練されたモデルから取り除こうとする。
未学習のトレース検出という新たな脆弱性を特定します。
すべてのモデルサイズにわたる未学習トレースの検出において, 誤り関連プロンプトが90%以上の精度で可能であることを示す。
論文 参考訳(メタデータ) (2025-06-16T21:03:51Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。
LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。
本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文 参考訳(メタデータ) (2025-05-05T20:42:34Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。