論文の概要: Unknown Unknowns: Why Hidden Intentions in LLMs Evade Detection
- arxiv url: http://arxiv.org/abs/2601.18552v1
- Date: Mon, 26 Jan 2026 14:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.881735
- Title: Unknown Unknowns: Why Hidden Intentions in LLMs Evade Detection
- Title(参考訳): 未知の未知: LLMのエベード検出における隠された意図
- Authors: Devansh Srivastav, David Pape, Lea Schönherr,
- Abstract要約: 意図,メカニズム,文脈,影響によって編成された,隠された意図の10つのカテゴリの分類法を導入する。
我々は,理性判定や非理性判定を含む検出手法を体系的に評価する。
実世界の現実的な環境、特に低頻度条件下では、検出が崩壊することがわかった。
- 参考スコア(独自算出の注目度): 4.514361164656055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly embedded in everyday decision-making, yet their outputs can encode subtle, unintended behaviours that shape user beliefs and actions. We refer to these covert, goal-directed behaviours as hidden intentions, which may arise from training and optimisation artefacts, or be deliberately induced by an adversarial developer, yet remain difficult to detect in practice. We introduce a taxonomy of ten categories of hidden intentions, grounded in social science research and organised by intent, mechanism, context, and impact, shifting attention from surface-level behaviours to design-level strategies of influence. We show how hidden intentions can be easily induced in controlled models, providing both testbeds for evaluation and demonstrations of potential misuse. We systematically assess detection methods, including reasoning and non-reasoning LLM judges, and find that detection collapses in realistic open-world settings, particularly under low-prevalence conditions, where false positives overwhelm precision and false negatives conceal true risks. Stress tests on precision-prevalence and precision-FNR trade-offs reveal why auditing fails without vanishingly small false positive rates or strong priors on manipulation types. Finally, a qualitative case study shows that all ten categories manifest in deployed, state-of-the-art LLMs, emphasising the urgent need for robust frameworks. Our work provides the first systematic analysis of detectability failures of hidden intentions in LLMs under open-world settings, offering a foundation for understanding, inducing, and stress-testing such behaviours, and establishing a flexible taxonomy for anticipating evolving threats and informing governance.
- Abstract(参考訳): LLMは日常的な意思決定にますます組み込まれていますが、そのアウトプットは、ユーザの信念や行動を形成する微妙で意図しない振る舞いをエンコードします。
我々は、これらの隠蔽されたゴール指向の行動を、訓練や最適化の成果物から生じる、あるいは敵の開発者によって故意に誘導される、隠された意図として言及するが、実際には検出することは困難である。
社会科学研究に基礎を置き、意図、メカニズム、文脈、影響によって組織化され、表面レベルの行動からデザインレベルの影響力戦略へと注意を移す10のカテゴリーの分類法を導入する。
隠れ意図が制御されたモデルで容易に誘導できることを示し、評価のためのテストベッドと潜在的な誤用の実証の両方を提供する。
特に, 偽陽性が精度を上回り, 偽陰性が真のリスクを隠蔽している場合において, 現実的なオープンワールド環境では検出が崩壊することを発見した。
精度・精度・FNRトレードオフに関するストレステストは、なぜ偽陽性率を失わずに監査が失敗するか、操作タイプに強い優先順位を付けることなく明らかである。
最後に、定性的なケーススタディでは、デプロイされた最先端のLLMに現れる10のカテゴリすべてを示し、堅牢なフレームワークの緊急の必要性を強調しています。
我々の研究は、オープンワールドな環境下でのLLMにおける隠れ意図の発見可能性障害を初めて体系的に分析し、そのような行動を理解し、誘発し、ストレステストするための基盤を提供し、進化する脅威を予測し、ガバナンスを促進する柔軟な分類法を確立します。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - MENTOR: A Metacognition-Driven Self-Evolution Framework for Uncovering and Mitigating Implicit Risks in LLMs on Domain Tasks [17.598413159363393]
現在のアライメントの取り組みは、主に偏見、ヘイトスピーチ、暴力のような明確なリスクをターゲットにしている。
本稿では,大規模言語モデルにおける暗黙的リスクの解消と軽減を目的とした,メタ認知駆動型セルフエボリューティオンフレームワークMENTORを提案する。
我々は、ドメイン固有のリスク識別を強化するために、教育、財務、管理にまたがる9000のリスククエリをサポートするデータセットをリリースする。
論文 参考訳(メタデータ) (2025-11-10T13:51:51Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind [0.23332469289621785]
シークレット・アジェンダは、すべてのモデルファミリの目標達成を騙すことによって、確実に嘘をついた。
分析の結果,「偽装」のための自動ラベル付きSAE機能は,戦略的不正行為時にはほとんど活性化されないことが明らかとなった。
発見は、オートラベル駆動の解釈可能性アプローチは、振る舞いの詐欺を検知または制御できないことを示唆している。
論文 参考訳(メタデータ) (2025-09-23T04:52:40Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize [30.448801772258644]
大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
論文 参考訳(メタデータ) (2025-09-04T05:15:55Z) - Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。