論文の概要: Pruning Weights but Not Truth: Safeguarding Truthfulness While Pruning LLMs
- arxiv url: http://arxiv.org/abs/2509.00096v2
- Date: Wed, 03 Sep 2025 14:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.076343
- Title: Pruning Weights but Not Truth: Safeguarding Truthfulness While Pruning LLMs
- Title(参考訳): 軽くて真実ではない: LLMを練りながら真実を守る
- Authors: Yao Fu, Runchao Li, Xianxuan Long, Haotian Yu, Xiaotian Han, Yu Yin, Pan Li,
- Abstract要約: ニューラルネットワークのプルーニングは、嘘検出に不可欠な内部活性化機能を阻害することを示す。
本稿では, より活性化性が高く, 差別的特徴が強い層に重きを置くレイヤワイド・アウトレイア(TPLO)により整列された真理的プルーニングを提案する。
提案手法は, 刈り取られたLLMの幻覚検出(50%間隔での精度88%)を改善し, TruthfulQAの性能を向上させる。
- 参考スコア(独自算出の注目度): 31.203254634502116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network pruning has emerged as a promising approach for deploying LLMs in low-resource scenarios while preserving downstream task performance. However, for the first time, we reveal that such pruning disrupts LLMs' internal activation features crucial for lie detection, where probing classifiers (typically small logistic regression models) trained on these features assess the truthfulness of LLM-generated statements. This discovery raises a crucial open question: how can we prune LLMs without sacrificing these critical lie detection capabilities? Our investigation further reveals that naively adjusting layer-wise pruning sparsity based on importance inadvertently removes crucial weights, failing to improve lie detection performance despite its reliance on the most crucial LLM layer. To address this issue, we propose Truthful Pruning aligned by Layer-wise Outliers (TPLO), which places greater emphasis on layers with more activation outliers and stronger discriminative features simultaneously. This preserves LLMs' original performance while retaining critical features of inner states needed for robust lie detection. Moreover, we introduce a prompting rule to enrich the TruthfulQA benchmark for better calibrating LLM pruning. Empirical results show that our approach improves the hallucination detection for pruned LLMs (achieving 88% accuracy at 50% sparsity) and enhances their performance on TruthfulQA.
- Abstract(参考訳): ニューラルネットワークのプルーニングは、ダウンストリームタスクのパフォーマンスを保ちながら、低リソースシナリオにLLMをデプロイするための有望なアプローチとして登場した。
しかし,これらの特徴を学習した探索型分類器(典型的にはロジスティック回帰モデル)が,LLM生成文の真偽を評価することによって,そのようなプルーニングがLLMの内部活性化機能を阻害することが明らかとなった。
この発見は、なぜ重要な嘘検出能力を犠牲にすることなくLCMを熟成できるのかという、重要なオープンな疑問を提起する。
さらに本研究では,重要度に基づく層幅調整が重要な重みを必然的に除去し,最重要なLCM層に依存しているにもかかわらず,嘘検出性能を向上することができないことを明らかにした。
この問題に対処するため,レイヤワイド・アウトレイア(TPLO)で整列された真のプルーニングを提案する。
これはLSMの本来の性能を維持しつつ、堅牢な嘘検出に必要な内部状態の重要な特徴を維持している。
さらに,LLMプルーニングのキャリブレーションを改善するため,TruthfulQAベンチマークを充実させるプロンプトルールを導入する。
実験の結果, 本手法は, 刈り取られたLLMの幻覚検出を改良し, 50%の精度で88%の精度を実現し, TruthfulQAの性能向上を図っている。
関連論文リスト
- Cleanse: Uncertainty Estimation Approach Using Clustering-based Semantic Consistency in LLMs [5.161416961439468]
本研究では,textbfClusttextbfering に基づくsemtextbfantic contextbfsisttextbfency (textbfCleanse) を用いた効果的な不確実性推定手法を提案する。
LLaMA-7B, LLaMA-13B, LLaMA2-7B, Mistral-7Bの4つの市販モデルを用いて, 幻覚検出におけるクリーンスの有効性を検証した。
論文 参考訳(メタデータ) (2025-07-19T14:48:24Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。