論文の概要: Caught in the Act: a mechanistic approach to detecting deception
- arxiv url: http://arxiv.org/abs/2508.19505v1
- Date: Wed, 27 Aug 2025 01:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.463726
- Title: Caught in the Act: a mechanistic approach to detecting deception
- Title(参考訳): 法律違反:詐欺の検知のための機械的アプローチ
- Authors: Gerard Boxo, Ryan Socha, Daniel Yoo, Shivam Raval,
- Abstract要約: LLMの線形プローブは,その応答の誤りを極めて高い精度で検出できることを示す。
より小さなモデル (1.5B) のプローブは偽装検出の精度が向上し, より大きなモデル (7B以上) は70~80%に達することが観察された。
Qwen 3Bの20から、DeepSeek 7B と Qwen 14B の100に近いモデルまで。
- 参考スコア(独自算出の注目度): 0.1013295809149289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sophisticated instrumentation for AI systems might have indicators that signal misalignment from human values, not unlike a "check engine" light in cars. One such indicator of misalignment is deceptiveness in generated responses. Future AI instrumentation may have the ability to detect when an LLM generates deceptive responses while reasoning about seemingly plausible but incorrect answers to factual questions. In this work, we demonstrate that linear probes on LLMs internal activations can detect deception in their responses with extremely high accuracy. Our probes reach a maximum of greater than 90% accuracy in distinguishing between deceptive and non-deceptive arguments generated by llama and qwen models ranging from 1.5B to 14B parameters, including their DeepSeek-r1 finetuned variants. We observe that probes on smaller models (1.5B) achieve chance accuracy at detecting deception, while larger models (greater than 7B) reach 70-80%, with their reasoning counterparts exceeding 90%. The layer-wise probe accuracy follows a three-stage pattern across layers: near-random (50%) in early layers, peaking in middle layers, and slightly declining in later layers. Furthermore, using an iterative null space projection approach, we find multitudes of linear directions that encode deception, ranging from 20 in Qwen 3B to nearly 100 in DeepSeek 7B and Qwen 14B models.
- Abstract(参考訳): AIシステムのための高度化された計測器は、車の「チェックエンジン」ライトと異なり、人間の価値からミスアライメントを信号する指標を持っているかもしれない。
このようなミスアライメントの指標の1つは、生成された応答における偽りである。
将来のAIインスツルメンテーションは、LLMが偽りの応答を発生させるのを検知する能力を持つかもしれない。
本研究では,LLMの内部アクティベーションに対する線形プローブが,その応答の誤認を極めて高い精度で検出できることを実証する。
提案手法は,Lamaモデルとqwenモデルによって生成され,1.5Bから14Bパラメータ,DeepSeek-r1の微調整版を含む,知覚的および非知覚的引数を識別する上で,最大90%以上の精度に達する。
より小さなモデル (1.5B) のプローブは偽装検出の精度が向上し, より大きなモデル (7B以上) は70~80%に達し, 推論精度は90%を超えた。
レイヤワイズプローブの精度は、初期のレイヤではほぼランダム(50%)、中層ではピーク、後のレイヤではわずかに低下する3段階のパターンに従っている。
さらに、反復的なヌル空間投影法を用いて、Qwen 3Bの20から、DeepSeek 7BとQwen 14Bの100のモデルまで、騙しを符号化する線形方向のマルチチュードを求める。
関連論文リスト
- Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [9.335304254034401]
我々は、ターゲットモデル自体の内部の階層的不整合を利用して、軽量なプラグイン検出フレームワークを導入する。
本手法は, 計算オーバーヘッドを無視し, 正確さを損なうことなく, 最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Detecting Strategic Deception Using Linear Probes [0.0]
我々は,線形プローブがモデルアクティベーションをモニタリングすることで,誤動作を確実に検出できるかどうかを評価する。
我々は,AUROCを0.96から0.999の精度で検出した。
全体として、ホワイトボックスプローブは将来の監視システムに期待できるが、現在の性能は詐欺に対する堅牢な防御として不十分である。
論文 参考訳(メタデータ) (2025-02-05T17:49:40Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Space-based gravitational wave signal detection and extraction with deep
neural network [13.176946557548042]
宇宙ベースの重力波検出器(GW)は、現在の地上での観測でほぼ不可能に近い音源からの信号を観測することができる。
本稿では,全宇宙GWソースに対して高精度なGW信号検出・抽出手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T11:48:15Z) - Neurosymbolic hybrid approach to driver collision warning [64.02492460600905]
自律運転システムには2つの主要なアルゴリズムアプローチがある。
ディープラーニングだけでは、多くの分野で最先端の結果が得られています。
しかし、ディープラーニングモデルが機能しない場合、デバッグが非常に難しい場合もあります。
論文 参考訳(メタデータ) (2022-03-28T20:29:50Z) - Neural Network Virtual Sensors for Fuel Injection Quantities with
Provable Performance Specifications [71.1911136637719]
証明可能な保証が、他の現実世界の設定にどのように自然に適用できるかを示す。
本研究では, 燃料噴射量を一定範囲で最大化するために, 特定の間隔の燃料噴射量を目標にする方法を示す。
論文 参考訳(メタデータ) (2020-06-30T23:33:17Z) - Leveraging Uncertainties for Deep Multi-modal Object Detection in
Autonomous Driving [12.310862288230075]
この研究は、LiDAR点雲とRGBカメラ画像を組み合わせて、堅牢で正確な3Dオブジェクト検出を行う確率論的ディープニューラルネットワークを提案する。
分類および回帰作業における不確実性を明示的にモデル化し、不確実性を活用してサンプリング機構を用いて核融合ネットワークを訓練する。
論文 参考訳(メタデータ) (2020-02-01T14:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。