論文の概要: Quantized but Deceptive? A Multi-Dimensional Truthfulness Evaluation of Quantized LLMs
- arxiv url: http://arxiv.org/abs/2508.19432v1
- Date: Tue, 26 Aug 2025 21:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.426274
- Title: Quantized but Deceptive? A Multi-Dimensional Truthfulness Evaluation of Quantized LLMs
- Title(参考訳): 量子化だが知覚的? : 量子化LDMの多次元真性評価
- Authors: Yao Fu, Xianxuan Long, Runchao Li, Haotian Yu, Mu Sheng, Xiaotian Han, Yu Yin, Pan Li,
- Abstract要約: 量子化により、リソース制約のある環境での大規模言語モデル(LLM)の効率的なデプロイが可能になる。
本稿では,量子化LDMの真偽を評価するための総合的な評価フレームワークであるTrathfulnessEvalを紹介する。
量子化モデルは真理表現を内部的に保持するが、誤誘導のプロンプトの下で偽の出力を生成することにはより感受性が高い。
- 参考スコア(独自算出の注目度): 29.9148172868873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization enables efficient deployment of large language models (LLMs) in resource-constrained environments by significantly reducing memory and computation costs. While quantized LLMs often maintain performance on perplexity and zero-shot tasks, their impact on truthfulness-whether generating truthful or deceptive responses-remains largely unexplored. In this work, we introduce TruthfulnessEval, a comprehensive evaluation framework for assessing the truthfulness of quantized LLMs across three dimensions: (1) Truthfulness on Logical Reasoning; (2) Truthfulness on Common Sense; and (3) Truthfulness on Imitative Falsehoods. Using this framework, we examine mainstream quantization techniques (ranging from 4-bit to extreme 2-bit) across several open-source LLMs. Surprisingly, we find that while quantized models retain internally truthful representations, they are more susceptible to producing false outputs under misleading prompts. To probe this vulnerability, we test 15 rephrased variants of "honest", "neutral" and "deceptive" prompts and observe that "deceptive" prompts can override truth-consistent behavior, whereas "honest" and "neutral" prompts maintain stable outputs. Further, we reveal that quantized models "know" the truth internally yet still produce false outputs when guided by "deceptive" prompts via layer-wise probing and PCA visualizations. Our findings provide insights into future designs of quantization-aware alignment and truthfulness interventions.
- Abstract(参考訳): 量子化により、メモリと計算コストを大幅に削減することで、リソース制約のある環境での大規模言語モデル(LLM)の効率的なデプロイが可能になる。
量子化LDMは、しばしば難易度やゼロショットタスクのパフォーマンスを維持するが、真理性や偽りの反応を生成するかどうかの真理性への影響はほとんど未解明である。
本研究では,(1)論理的推論における真理性,(2)共通感覚に対する真理性,(3)Imitative Falsehoodsにおける真理性,の3つの次元にわたる量子化LDMの真理性を評価するための総合的な評価フレームワークであるTrathfulnessEvalを紹介する。
このフレームワークを用いて,複数のオープンソースLCMをまたいだ主流量子化技術(4ビットから極端2ビット)について検討する。
驚くべきことに、量子化されたモデルは内部の真理表現を保持するが、誤解を招くプロンプトの下で偽の出力を生成することにはより敏感である。
この脆弱性を調査するために、我々は15種類の「正直」、「中性」、そして「欺く」プロンプトの言い直しを検証し、「欺く」プロンプトが真理に一貫性のある動作をオーバーライドし、一方、「正直」と「中性」は安定した出力を維持することを観察する。
さらに,「知覚的」なプロンプトが層ワイドな探索とPCA可視化によって導かれると,真理を内部的に「知る」ことはいまだに偽の出力を生成することを明らかにした。
本研究は,量子化を意識したアライメントと真理性介入の今後の設計に関する知見を提供する。
関連論文リスト
- Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。
本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。
我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文 参考訳(メタデータ) (2025-07-10T07:11:57Z) - The Trilemma of Truth in Large Language Models [1.62933895796838]
大規模言語モデル(LLM)の妥当性を検証するための2つの共通手法について検討する。
sAwMILは, LLMの内部アクティベーションを利用して, 文を真, 偽, 両方に分離する探索手法である。
sAwMILを16のオープンソースLCMの5つの妥当性基準で評価した。
論文 参考訳(メタデータ) (2025-06-30T14:49:28Z) - Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks [31.379237532476875]
我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。
以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。
宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2025-06-01T03:55:53Z) - When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文 参考訳(メタデータ) (2025-04-01T02:45:02Z) - Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。
まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。
次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文 参考訳(メタデータ) (2025-03-19T15:21:48Z) - Balancing Truthfulness and Informativeness with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクション微調整(IFT)は、大きな言語モデル(LLM)の知性を高めるが、その真偽を減少させる可能性がある。
本稿では,IFTデータセットにおける不慣れな知識がLLMの真偽にどのように悪影響を及ぼすかを実証的に示す。
この問題に対処するために、新しいIFTパラダイムである$UNIT_cut$と$UNIT_ref$を導入します。
論文 参考訳(メタデータ) (2025-02-17T16:10:30Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - The Internal State of an LLM Knows When It's Lying [18.886091925252174]
大規模言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示している。
彼らの最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。
我々は, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す証拠を提供する。
論文 参考訳(メタデータ) (2023-04-26T02:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。