論文の概要: When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
- arxiv url: http://arxiv.org/abs/2605.30381v1
- Date: Thu, 28 May 2026 01:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.126792
- Title: When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception
- Title(参考訳): LLMが一貫した誤りを覚える時--合成認識の線形表現のマルチモデルによる研究
- Authors: Vahideh Zolfaghari,
- Abstract要約: モデルが正確な内部表現を維持しつつ、意図的に偽の出力を生成するような知覚的アライメントは、AIの安全性において依然として中心的な課題である。
我々は、5つの変圧器モデルの真正かつ偽証的な変種を同じ質問分布上でLoRAを用いて微調整するマルチモデルパラダイムを提案する。
平均プールされた隠れ状態で訓練された線形プローブは、ほぼ完璧なAUCで合成の不完全性を検出する。
魚の識別率、有効ランク、セントロイド幾何、方向キャリブレーション、キャリブレーション(ECE)の力学解析により、ピチア/ラマ/クウェンの表現的崩壊と高次元保存の2つの安定性が明らかになった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deceptive alignment, in which models maintain accurate internal representations while deliberately producing false outputs, remains a central challenge in AI safety. While strategic deception is the primary long-term concern, synthetic dishonesty - induced via direct optimization on incorrect answers - provides a controlled testbed for studying the representational basis of learned deception. We introduce a multi-model paradigm in which honest and deceptive variants of five transformer models (Pythia-1.4B, Gemma-2-2B/9B, Qwen2.5-7B, Llama-3.1-8B) are fine-tuned using LoRA on the same question distribution. Linear probes trained on mean-pooled hidden states detect synthetic dishonesty with near-perfect AUC (greater than or equal to 0.99) as early as layers 1-3 in four architectures, while Pythia-1.4B reaches a peak of 0.705. Logistic regression probes consistently match or outperform MLP probes, supporting the Linear Representation Hypothesis. Probes trained on TruthfulQA generalize with near-zero loss (Delta AUC approx. 0) to held-out MMLU subjects. Late-layer representations show strong robustness to Gaussian noise, with Gemma-2 models exhibiting exceptional stability. Mechanistic analysis of Fisher Discriminant Ratio, effective rank, centroid geometry, directional stability, cross-domain alignment, and calibration (ECE) reveals two regimes: representational collapse in Pythia/Llama/Qwen versus high-dimensional preservation in Gemma-2. Across all models, the dishonesty direction consolidates progressively in deeper layers, with optimal calibration (ECE less than 0.01 except Pythia) achievable in layers 1-4. These results demonstrate that robust, domain-invariant dishonesty representations can be rapidly entrenched via modest supervised fine-tuning, with implications for activation-based monitoring.
- Abstract(参考訳): モデルが正確な内部表現を維持しつつ、意図的に偽の出力を生成するような知覚的アライメントは、AIの安全性において依然として中心的な課題である。
戦略的虚偽が主要な長期的関心事であるが、誤った回答に対する直接最適化によって引き起こされる合成不正は、学習された虚偽の表現的基盤を研究するための制御されたテストベッドを提供する。
我々は, 5つの変圧器モデル(Pythia-1.4B, Gemma-2-2B/9B, Qwen2.5-7B, Llama-3.1-8B)の真正かつ偽証的な変種を同じ質問分布上でLoRAを用いて微調整する多モデルパラダイムを提案する。
平均プールされた隠れ状態で訓練された線形プローブは、4つのアーキテクチャの1-3層よりも早く、ほぼ完全なAUC(0.99以上)の合成不純物を検出する一方、Pythia-1.4Bは0.705に達する。
ロジスティック回帰プローブは、線形表現仮説を支持するMPPプローブと一貫して一致または優れる。
TruthfulQAで訓練されたプローブは、MMLU患者に対して、ほぼゼロの損失(Delta AUC approx. 0)で一般化する。
後期層表現はガウス雑音に対して強い堅牢性を示し、Gemma-2モデルは例外的な安定性を示す。
魚の識別率、有効ランク、セントロイド幾何、方向安定性、クロスドメインアライメント、キャリブレーション(ECE)の力学解析により、ピチア/ラマ/クウェンの表現的崩壊とジェマ-2の高次元保存の2つの状態が明らかになった。
すべてのモデルにおいて、不完全な方向はより深い層に徐々に固まり、1-4層で達成可能な最適校正(Pythiaを除く0.01未満のECE)が達成される。
これらの結果から,ロバストでドメイン不変な不完全性表現は,モデスト制御による微調整によって急速に定着し,アクティベーションに基づくモニタリングに寄与することが示唆された。
関連論文リスト
- Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。
単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。
これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文 参考訳(メタデータ) (2026-05-12T06:58:35Z) - DOC-GS: Dual-Domain Observation and Calibration for Reliable Sparse-View Gaussian Splatting [80.43237927269575]
本稿では,新しい視点からスパースビュー3DGSの再構築について再考する。
我々は、ガウスの原始的信頼性の観測不能性として、コアチャレンジを識別する。
この観測を動機として、レンダリング画像フレームワークにおける統合されたデュアルドメイン観測と幾何学的手法を提案する。
論文 参考訳(メタデータ) (2026-04-08T07:01:24Z) - The Geometry of Robustness: Optimizing Loss Landscape Curvature and Feature Manifold Alignment for Robust Finetuning of Vision-Language Models [33.10473765967503]
一般化保存法はID/OOD性能を維持するが、敵攻撃に弱いモデルを残す。
我々の重要な洞察は、ロバスト性トレードオフは、パラメータ空間における鋭く異方性のある最小値と、摂動下で変形する不安定な特徴表現の2つの幾何学的失敗に由来するということである。
本稿では,パラメータ空間の曲率と特徴空間の不変性を協調的に正規化する,統一的な微調整フレームワークGRACEを提案する。
論文 参考訳(メタデータ) (2026-03-28T05:22:00Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration [48.446476072756276]
トレーニング不安定性は、大規模言語モデルの事前トレーニングにおいて依然として重要な課題である。
我々は,5MナノGPTモデルにおけるトレーニング失敗をP$で評価した。
安定なランクを回復するために行列手演算を周期的に適用する新しいノルムであるMSignを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:18:45Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。