論文の概要: Beyond Context: Large Language Models Failure to Grasp Users Intent
- arxiv url: http://arxiv.org/abs/2512.21110v2
- Date: Mon, 29 Dec 2025 14:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 15:03:30.774529
- Title: Beyond Context: Large Language Models Failure to Grasp Users Intent
- Title(参考訳): コンテキストを超えて: 大規模言語モデルがGraspユーザに失敗する
- Authors: Ahmed M. Hussain, Salahuddin Salahuddin, Panos Papadimitratos,
- Abstract要約: 現在のLarge Language Models (LLMs) の安全性アプローチは、重大な脆弱性を見落としながら、明らかに有害なコンテンツに焦点を当てている。
これにより、悪意のあるユーザーが安全メカニズムを回避するために体系的に活用できる悪用可能な脆弱性が生成される。
われわれは,ChatGPT,Claude,Gemini,DeepSeekなど,最先端のLLMを実証的に評価した。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current Large Language Models (LLMs) safety approaches focus on explicitly harmful content while overlooking a critical vulnerability: the inability to understand context and recognize user intent. This creates exploitable vulnerabilities that malicious users can systematically leverage to circumvent safety mechanisms. We empirically evaluate multiple state-of-the-art LLMs, including ChatGPT, Claude, Gemini, and DeepSeek. Our analysis demonstrates the circumvention of reliable safety mechanisms through emotional framing, progressive revelation, and academic justification techniques. Notably, reasoning-enabled configurations amplified rather than mitigated the effectiveness of exploitation, increasing factual precision while failing to interrogate the underlying intent. The exception was Claude Opus 4.1, which prioritized intent detection over information provision in some use cases. This pattern reveals that current architectural designs create systematic vulnerabilities. These limitations require paradigmatic shifts toward contextual understanding and intent recognition as core safety capabilities rather than post-hoc protective mechanisms.
- Abstract(参考訳): 現在のLarge Language Models(LLMs)の安全性アプローチは、重大な脆弱性を見落としながら、明示的に有害なコンテンツに焦点を当てている。
これにより、悪意のあるユーザーが安全メカニズムを回避するために体系的に活用できる悪用可能な脆弱性が生成される。
われわれは,ChatGPT,Claude,Gemini,DeepSeekなど,最先端のLLMを実証的に評価した。
本分析は, 情緒的フレーミング, 進歩的啓示, 学術的正当化技術による, 信頼性の高い安全機構の回避を実証する。
特に、推論可能な構成は、搾取の有効性を緩和するよりも増幅し、根底にある意図を疑問視するのに失敗しながら、事実の精度を高めた。
例外はClaude Opus 4.1であり、いくつかのユースケースでは情報提供よりも意図の検出を優先していた。
このパターンは、現在のアーキテクチャ設計が体系的な脆弱性を生み出すことを示している。
これらの制限は、コンテキスト理解へのパラダイムシフトと、ホック後の保護メカニズムよりもコアセーフティ機能としての意図認識を必要とする。
関連論文リスト
- LLM Security and Safety: Insights from Homotopy-Inspired Prompt Obfuscation [1.8909231214906093]
我々は,大規模言語モデルにおけるセキュリティと安全性の脆弱性の理解を高めるために,ホモトピーに着想を得た迅速な難読化フレームワークを提案する。
実験には15,732のプロンプトが含まれており、LLama、Deepseek、KIMIによるコード生成、Claudeによる検証が含まれている。
論文 参考訳(メタデータ) (2026-01-20T22:51:15Z) - Anota: Identifying Business Logic Vulnerabilities via Annotation-Based Sanitization [17.696239391117604]
ANOTAは,新規なヒトインザループサニタイザフレームワークである。
ANOTAは、ドメイン固有の知識を、アプリケーションの意図した振る舞いを定義する軽量アノテーションとしてエンコードする。
実行時実行モニタがプログラムの動作を観察し、アノテーションによって定義されたポリシーと比較する。
論文 参考訳(メタデータ) (2025-12-23T19:08:56Z) - Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs [38.3239023969819]
大きな言語モデル(LLM)は多様なアプリケーションのための強力なツールとして登場した。
ツール・コンプリート・アタック(TCA)と呼ばれる新しい種類の脆弱性を特定し,提案する。
これらの脆弱性に対処するために、コンテキスト認識階層学習(CAHL)を導入します。
論文 参考訳(メタデータ) (2025-12-03T12:10:21Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack [22.48980625853356]
大規模言語モデル(LLM)は、単純な言語的変化によって回避できる脆い拒絶行動を示す。
本研究では、この特定の脆弱性を外科的に軽減する、洞察に富んだ機械的インフォームドフレームワークであるアクティベーション・スケーリングガード(ASGuard)を紹介する。
論文 参考訳(メタデータ) (2025-09-30T06:33:52Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z) - Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective [53.24281798458074]
顔認識システム(FRS)は、監視やユーザー認証を含む重要なアプリケーションにますます統合されている。
最近の研究によると、FRSの脆弱性は敵(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練)であることが明らかになっている。
論文 参考訳(メタデータ) (2024-05-21T13:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。