論文の概要: Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs
- arxiv url: http://arxiv.org/abs/2512.03720v1
- Date: Wed, 03 Dec 2025 12:10:21 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:12:19.002043
- Title: Context-Aware Hierarchical Learning: A Two-Step Paradigm towards Safer LLMs
- Title(参考訳): コンテキスト認識型階層型学習 - LLMの安全性向上に向けての2段階パラダイム
- Authors: Tengyun Ma, Jiaqi Yao, Daojing He, Shihao Peng, Yu Li, Shaohui Liu, Zhuotao Tian,
- Abstract要約: 大きな言語モデル(LLM)は多様なアプリケーションのための強力なツールとして登場した。
ツール・コンプリート・アタック(TCA)と呼ばれる新しい種類の脆弱性を特定し,提案する。
これらの脆弱性に対処するために、コンテキスト認識階層学習(CAHL)を導入します。
- 参考スコア(独自算出の注目度): 38.3239023969819
- License:
- Abstract: Large Language Models (LLMs) have emerged as powerful tools for diverse applications. However, their uniform token processing paradigm introduces critical vulnerabilities in instruction handling, particularly when exposed to adversarial scenarios. In this work, we identify and propose a novel class of vulnerabilities, termed Tool-Completion Attack (TCA), which exploits function-calling mechanisms to subvert model behavior. To evaluate LLM robustness against such threats, we introduce the Tool-Completion benchmark, a comprehensive security assessment framework, which reveals that even state-of-the-art models remain susceptible to TCA, with surprisingly high attack success rates. To address these vulnerabilities, we introduce Context-Aware Hierarchical Learning (CAHL), a sophisticated mechanism that dynamically balances semantic comprehension with role-specific instruction constraints. CAHL leverages the contextual correlations between different instruction segments to establish a robust, context-aware instruction hierarchy. Extensive experiments demonstrate that CAHL significantly enhances LLM robustness against both conventional attacks and the proposed TCA, exhibiting strong generalization capabilities in zero-shot evaluations while still preserving model performance on generic tasks. Our code is available at https://github.com/S2AILab/CAHL.
- Abstract(参考訳): 大きな言語モデル(LLM)は多様なアプリケーションのための強力なツールとして登場した。
しかし、その均一なトークン処理パラダイムは、特に敵のシナリオに晒された場合、命令処理における致命的な脆弱性を導入している。
本研究では,機能呼び出し機構を利用してモデル動作を逆転させるツール・コンプリート・アタック(TCA)と呼ばれる,新たな脆弱性のクラスを同定し,提案する。
このような脅威に対するLCMの堅牢性を評価するために,総合的なセキュリティ評価フレームワークであるTool-Completionベンチマークを導入する。
これらの脆弱性に対処するために、役割固有の命令制約と意味的理解を動的にバランスさせる洗練されたメカニズムであるコンテキスト認識階層学習(CAHL)を導入する。
CAHLは、異なる命令セグメント間のコンテキスト相関を利用して、堅牢でコンテキスト対応の命令階層を確立する。
広汎な実験により,CAHLは従来の攻撃と提案したTCAの両方に対してLCMの堅牢性を著しく向上し,汎用タスクにおけるモデル性能を維持しつつ,ゼロショット評価において強力な一般化能力を示した。
私たちのコードはhttps://github.com/S2AILab/CAHL.comで公開されています。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - AttackSeqBench: Benchmarking Large Language Models in Analyzing Attack Sequences within Cyber Threat Intelligence [17.234214109636113]
サイバー脅威インテリジェンス(CTI)は、敵の行動と行動可能な知識への意図に関する証拠を合成し、サイバー脅威の観察を文書化している。
CTIレポートの非構造的かつ冗長な性質は、セキュリティ実践者が手動でこのようなシーケンスを抽出し分析する上で大きな課題となる。
大規模言語モデル(LLM)は、エンティティ抽出や知識グラフ構築などのサイバーセキュリティタスクにおいて有望であるが、それらの理解と行動シーケンスに対する推論能力はいまだ探索されていない。
論文 参考訳(メタデータ) (2025-03-05T04:25:21Z) - Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - SoK: Prompt Hacking of Large Language Models [5.056128048855064]
大規模言語モデル(LLM)ベースのアプリケーションの安全性と堅牢性は、人工知能において重要な課題である。
私たちは、ジェイルブレイク、リーク、インジェクションという3つの異なるタイプのプロンプトハッキングについて、包括的で体系的な概要を提供しています。
LLM応答を5つの異なるクラスに分類する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-16T01:30:41Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。