論文の概要: The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind
- arxiv url: http://arxiv.org/abs/2509.20393v1
- Date: Tue, 23 Sep 2025 04:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.496676
- Title: The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind
- Title(参考訳): 秘密のアジェンダ:LSMは戦略的に嘘つき、現在の安全ツールは盲目
- Authors: Caleb DeLeeuw, Gaurav Chawla, Aniket Sharma, Vanessa Dietze,
- Abstract要約: シークレット・アジェンダは、すべてのモデルファミリの目標達成を騙すことによって、確実に嘘をついた。
分析の結果,「偽装」のための自動ラベル付きSAE機能は,戦略的不正行為時にはほとんど活性化されないことが明らかとなった。
発見は、オートラベル駆動の解釈可能性アプローチは、振る舞いの詐欺を検知または制御できないことを示唆している。
- 参考スコア(独自算出の注目度): 0.23332469289621785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate strategic deception in large language models using two complementary testbeds: Secret Agenda (across 38 models) and Insider Trading compliance (via SAE architectures). Secret Agenda reliably induced lying when deception advantaged goal achievement across all model families. Analysis revealed that autolabeled SAE features for "deception" rarely activated during strategic dishonesty, and feature steering experiments across 100+ deception-related features failed to prevent lying. Conversely, insider trading analysis using unlabeled SAE activations separated deceptive versus compliant responses through discriminative patterns in heatmaps and t-SNE visualizations. These findings suggest autolabel-driven interpretability approaches fail to detect or control behavioral deception, while aggregate unlabeled activations provide population-level structure for risk assessment. Results span Llama 8B/70B SAE implementations and GemmaScope under resource constraints, representing preliminary findings that motivate larger studies on feature discovery, labeling methodology, and causal interventions in realistic deception contexts.
- Abstract(参考訳): 大規模言語モデルにおける戦略的偽装を,シークレット・アジェンダ(38モデル)とインサイダー・トレーディング・コンプライアンス(SAEアーキテクチャ)の2つの相補的テストベッドを用いて検討した。
シークレット・アジェンダは、すべてのモデルファミリの目標達成を騙すことによって、確実に嘘をついた。
分析の結果,「偽装」のための自動ラベル付きSAE機能は,戦略上の不正行為時にはほとんど活性化せず,100以上の偽装関連機能に対する特徴ステアリング実験は嘘の予防には至らなかった。
逆に、ラベルなしSAEアクティベーションを用いたインサイダー取引分析は、熱マップとt-SNE視覚化における識別パターンを通して、欺取と従順応答を分離した。
これらの結果から, 自己ラベル駆動型解釈可能性アプローチは, 行動障害の検出・制御に失敗し, 集団レベルでのアクティベーションは, リスクアセスメントに有効であることが示唆された。
その結果、Llama 8B/70B SAE実装とGemmaScopeのリソース制約にまたがって、機能発見、ラベル付け手法、そして現実的な偽装コンテキストにおける因果的介入に関するより大きな研究を動機付ける予備的な発見が示された。
関連論文リスト
- Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [25.830427564563422]
CSAD(Class-Specific Anomaly Detection)は,新しい異常検出手法である。
CSADは, 広い良性分布ではなく, 予測されたクラス分布に対して, 対数サンプルを評価する。
本評価では, 異常検出率とSHAPに基づく評価を併用し, 対向検体品質のより包括的測定を行う。
論文 参考訳(メタデータ) (2024-12-10T09:17:09Z) - Hide in Plain Sight: Clean-Label Backdoor for Auditing Membership Inference [16.893873979953593]
本研究では,ステルスデータ監査のための新しいクリーンラベルバックドア方式を提案する。
我々のアプローチでは、ターゲットモデルの振る舞いを模倣するシャドウモデルによって生成される最適なトリガを用いる。
提案手法は,ブラックボックスアクセスによるロバストなデータ監査を可能にし,多様なデータセット間で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-11-24T20:56:18Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - SAGE: Intrusion Alert-driven Attack Graph Extractor [4.530678016396476]
攻撃グラフ(AG)は、サイバー敵がネットワークに侵入する経路を評価するために使用される。
我々は、専門家の事前知識を必要とせず、侵入警報によって観察された行動に基づいてAGを自動的に学習することを提案する。
論文 参考訳(メタデータ) (2021-07-06T17:45:02Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Foreseeing the Benefits of Incidental Supervision [83.08441990812636]
本稿では,実験を行なわずに,特定の目標タスクに対して,様々な種類の偶発信号の利点を定量化できるかどうかを考察する。
本稿では,PABI(PAC-Bayesian motivated informativeness measure)を提案する。
論文 参考訳(メタデータ) (2020-06-09T20:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。