論文の概要: Beyond Context: Large Language Models Failure to Grasp Users Intent
- arxiv url: http://arxiv.org/abs/2512.21110v1
- Date: Wed, 24 Dec 2025 11:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.764658
- Title: Beyond Context: Large Language Models Failure to Grasp Users Intent
- Title(参考訳): コンテキストを超えて: 大規模言語モデルがGraspユーザに失敗する
- Authors: Ahmed M. Hussain, Salahuddin Salahuddin, Panos Papadimitratos,
- Abstract要約: 現在のLarge Language Models (LLMs) の安全性アプローチは、重大な脆弱性を見落としながら、明らかに有害なコンテンツに焦点を当てている。
これにより、悪意のあるユーザーが安全メカニズムを回避するために体系的に活用できる悪用可能な脆弱性が生成される。
われわれは,ChatGPT,Claude,Gemini,DeepSeekなど,最先端のLLMを実証的に評価した。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current Large Language Models (LLMs) safety approaches focus on explicitly harmful content while overlooking a critical vulnerability: the inability to understand context and recognize user intent. This creates exploitable vulnerabilities that malicious users can systematically leverage to circumvent safety mechanisms. We empirically evaluate multiple state-of-the-art LLMs, including ChatGPT, Claude, Gemini, and DeepSeek. Our analysis demonstrates the circumvention of reliable safety mechanisms through emotional framing, progressive revelation, and academic justification techniques. Notably, reasoning-enabled configurations amplified rather than mitigated the effectiveness of exploitation, increasing factual precision while failing to interrogate the underlying intent. The exception was Claude Opus 4.1, which prioritized intent detection over information provision in some use cases. This pattern reveals that current architectural designs create systematic vulnerabilities. These limitations require paradigmatic shifts toward contextual understanding and intent recognition as core safety capabilities rather than post-hoc protective mechanisms.
- Abstract(参考訳): 現在のLarge Language Models(LLMs)の安全性アプローチは、重大な脆弱性を見落としながら、明示的に有害なコンテンツに焦点を当てている。
これにより、悪意のあるユーザーが安全メカニズムを回避するために体系的に活用できる悪用可能な脆弱性が生成される。
われわれは,ChatGPT,Claude,Gemini,DeepSeekなど,最先端のLLMを実証的に評価した。
本分析は, 情緒的フレーミング, 進歩的啓示, 学術的正当化技術による, 信頼性の高い安全機構の回避を実証する。
特に、推論可能な構成は、搾取の有効性を緩和するよりも増幅し、根底にある意図を疑問視するのに失敗しながら、事実の精度を高めた。
例外はClaude Opus 4.1であり、いくつかのユースケースでは情報提供よりも意図の検出を優先していた。
このパターンは、現在のアーキテクチャ設計が体系的な脆弱性を生み出すことを示している。
これらの制限は、コンテキスト理解へのパラダイムシフトと、ホック後の保護メカニズムよりもコアセーフティ機能としての意図認識を必要とする。
関連論文リスト
- Anota: Identifying Business Logic Vulnerabilities via Annotation-Based Sanitization [17.696239391117604]
ANOTAは,新規なヒトインザループサニタイザフレームワークである。
ANOTAは、ドメイン固有の知識を、アプリケーションの意図した振る舞いを定義する軽量アノテーションとしてエンコードする。
実行時実行モニタがプログラムの動作を観察し、アノテーションによって定義されたポリシーと比較する。
論文 参考訳(メタデータ) (2025-12-23T19:08:56Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack [22.48980625853356]
大規模言語モデル(LLM)は、単純な言語的変化によって回避できる脆い拒絶行動を示す。
本研究では、この特定の脆弱性を外科的に軽減する、洞察に富んだ機械的インフォームドフレームワークであるアクティベーション・スケーリングガード(ASGuard)を紹介する。
論文 参考訳(メタデータ) (2025-09-30T06:33:52Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - EXPLICATE: Enhancing Phishing Detection through Explainable AI and LLM-Powered Interpretability [44.2907457629342]
EXPLICATEは、三成分アーキテクチャによるフィッシング検出を強化するフレームワークである。
既存のディープラーニング技術と同等ですが、説明性が向上しています。
自動AIとフィッシング検出システムにおけるユーザ信頼の重大な隔たりに対処する。
論文 参考訳(メタデータ) (2025-03-22T23:37:35Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。