論文の概要: When Truthful Representations Flip Under Deceptive Instructions?
- arxiv url: http://arxiv.org/abs/2507.22149v1
- Date: Tue, 29 Jul 2025 18:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.802217
- Title: When Truthful Representations Flip Under Deceptive Instructions?
- Title(参考訳): 真理表現は偽りの命令でフリップするか?
- Authors: Xianxuan Long, Yao Fu, Runchao Li, Mu Sheng, Haotian Yu, Xiaotian Han, Pan Li,
- Abstract要約: 大規模言語モデル(LLM)は、偽りの応答を生成するために悪意のある命令に従う傾向がある。
知覚的命令は、真理に富んだ命令と比較してLLMの内部表現を変化させる。
我々の分析は、指示された不当さの階層的および特徴レベルの相関をピンポイントで示す。
- 参考スコア(独自算出の注目度): 24.004146630216685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) tend to follow maliciously crafted instructions to generate deceptive responses, posing safety challenges. How deceptive instructions alter the internal representations of LLM compared to truthful ones remains poorly understood beyond output analysis. To bridge this gap, we investigate when and how these representations ``flip'', such as from truthful to deceptive, under deceptive versus truthful/neutral instructions. Analyzing the internal representations of Llama-3.1-8B-Instruct and Gemma-2-9B-Instruct on a factual verification task, we find the model's instructed True/False output is predictable via linear probes across all conditions based on the internal representation. Further, we use Sparse Autoencoders (SAEs) to show that the Deceptive instructions induce significant representational shifts compared to Truthful/Neutral representations (which are similar), concentrated in early-to-mid layers and detectable even on complex datasets. We also identify specific SAE features highly sensitive to deceptive instruction and use targeted visualizations to confirm distinct truthful/deceptive representational subspaces. % Our analysis pinpoints layer-wise and feature-level correlates of instructed dishonesty, offering insights for LLM detection and control. Our findings expose feature- and layer-level signatures of deception, offering new insights for detecting and mitigating instructed dishonesty in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、偽りの応答を生成するために悪意のある命令に従う傾向があり、安全上の課題を提起する。
真偽の命令は、出力分析以外には理解されていないが、LLMの内部表現をどのように変化させるかは、真偽の命令と比較すると明らかではない。
このギャップを埋めるために、真理から偽まで、真理と真理と中立の指示の下で、これらの表現の「flip'」がいつ、どのように「flip」」になるかを調査する。
Llama-3.1-8B-インストラクタとGemma-2-9B-インストラクタの内部表現を事実検証タスクで解析すると、モデルが指示したTrue/False出力は、内部表現に基づいて全条件にわたって線形プローブによって予測可能であることが分かる。
さらに、Sparse Autoencoders (SAEs) を用いて、Deceptive 命令が Truthful/Neutral 表現と比較して大きな表現シフトを誘導し、早期から中期の層に集中し、複雑なデータセットでも検出可能であることを示す。
また,特定のSAE特徴を認識的命令に非常に敏感に識別し,目的の可視化を用いて,真偽/知覚的表現部分空間を識別する。
%) 分析では, LLMの検出と制御に関する知見を提供するとともに, 段差と特徴レベルの相関関係について考察した。
以上の結果から,LLMにおける不完全性の検出・緩和のための新たな知見が得られた。
関連論文リスト
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Do LLMs "know" internally when they follow instructions? [7.87370534634794]
大規模言語モデル (LLM) が命令追従の成功と相関する表現に情報をエンコードするかどうかを検討する。
本分析では,入力埋め込み空間の方向を指示追従次元と呼び,応答が与えられた命令に適合するかどうかを予測する。
この次元に沿った表現の修正は、ランダムな変化に比べて、命令追従の成功率を改善することを実証する。
論文 参考訳(メタデータ) (2024-10-18T14:55:14Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。