論文の概要: Concept Enhancement Engineering: A Lightweight and Efficient Robust Defense Against Jailbreak Attacks in Embodied AI
- arxiv url: http://arxiv.org/abs/2504.13201v1
- Date: Tue, 15 Apr 2025 03:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 21:08:02.314002
- Title: Concept Enhancement Engineering: A Lightweight and Efficient Robust Defense Against Jailbreak Attacks in Embodied AI
- Title(参考訳): 概念強化エンジニアリング: 身近なAIにおけるジェイルブレイク攻撃に対する軽量で効率的なロバスト防御
- Authors: Jirui Yang, Zheyu Lin, Shuhan Yang, Zhihui Lu, Xin Du,
- Abstract要約: エンボディード・インテリジェンス (Embodied Intelligence, EI) システムは大規模言語モデル (LLM) と統合されており、重大なセキュリティリスクに直面している。
入力フィルタリングや出力監視といった従来の防衛戦略は、しばしば高い計算オーバーヘッドをもたらす。
本研究では, 内部アクティベーションを動的に操り, 組込みLDMの安全性を高めるための概念拡張工学(CEE)を提案する。
- 参考スコア(独自算出の注目度): 19.094809384824064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Intelligence (EI) systems integrated with large language models (LLMs) face significant security risks, particularly from jailbreak attacks that manipulate models into generating harmful outputs or executing unsafe physical actions. Traditional defense strategies, such as input filtering and output monitoring, often introduce high computational overhead or interfere with task performance in real-time embodied scenarios. To address these challenges, we propose Concept Enhancement Engineering (CEE), a novel defense framework that leverages representation engineering to enhance the safety of embodied LLMs by dynamically steering their internal activations. CEE operates by (1) extracting multilingual safety patterns from model activations, (2) constructing control directions based on safety-aligned concept subspaces, and (3) applying subspace concept rotation to reinforce safe behavior during inference. Our experiments demonstrate that CEE effectively mitigates jailbreak attacks while maintaining task performance, outperforming existing defense methods in both robustness and efficiency. This work contributes a scalable and interpretable safety mechanism for embodied AI, bridging the gap between theoretical representation engineering and practical security applications. Our findings highlight the potential of latent-space interventions as a viable defense paradigm against emerging adversarial threats in physically grounded AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)と統合された身体情報システム(Embodied Intelligence, EI)は、特に有害な出力を生成するためにモデルを操作するジェイルブレイク攻撃や、安全でない物理的な動作を実行することによる重大なセキュリティリスクに直面している。
入力フィルタリングや出力監視といった従来の防衛戦略は、しばしば高い計算オーバーヘッドをもたらすか、リアルタイムな実施シナリオにおけるタスクパフォーマンスに干渉する。
これらの課題に対処するために,表現工学を活用する新しい防衛フレームワークである概念強化工学(CEE)を提案する。
CEEは,(1)モデルアクティベーションから多言語的安全パターンを抽出し,(2)安全に整合した概念部分空間に基づく制御方向の構築,(3)推論時の安全行動を強化するためにサブスペースの概念回転を適用した。
実験の結果,CEEはタスク性能を維持しつつ,ジェイルブレイク攻撃を効果的に軽減し,ロバスト性と効率性の両方で既存の防御方法より優れていた。
この研究は、AIを具現化するためのスケーラブルで解釈可能な安全性メカニズムに貢献し、理論表現工学と実用的なセキュリティアプリケーションの間のギャップを埋める。
我々の研究は、物理的基盤を持つAIシステムにおける新たな敵の脅威に対する防御パラダイムとして、潜在空間介入の可能性を強調した。
関連論文リスト
- An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation [39.44000290664494]
ジェイルブレイク攻撃は、生成モデルのビルトインセーフをバイパスする有害なプロンプトであり、モデルの脆弱性に対する深刻な懸念を引き起こす。
本稿では,標準生成タスクをバイナリ分類問題として再検討することにより,ジェイルブレイク防御を体系的に検討する。
我々は,全てのクエリに対する拒絶率を増加させる安全性シフトと,有害な入力と良質な入力を区別するモデルの能力を向上させる有害性判別という2つの主要な防御メカニズムを同定する。
論文 参考訳(メタデータ) (2025-02-20T12:07:40Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [25.212057612342218]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全性対策を回避し、有害な出力を生成するジェイルブレイク攻撃の影響を受けやすい。
この問題に対処するために,ポストアウェアフレームワークを用いたラテントスペース・アドバイザリアル・トレーニングを提案する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Attention-Based Real-Time Defenses for Physical Adversarial Attacks in
Vision Applications [58.06882713631082]
ディープニューラルネットワークはコンピュータビジョンタスクにおいて優れたパフォーマンスを示すが、現実の敵攻撃に対する脆弱性は深刻なセキュリティ上の懸念を引き起こす。
本稿では、敵チャネルの注意力を利用して、浅いネットワーク層における悪意のある物体を素早く識別・追跡する、効果的な注意に基づく防御機構を提案する。
また、効率的な多フレーム防御フレームワークを導入し、防御性能と計算コストの両方を評価することを目的とした広範な実験を通じて、その有効性を検証した。
論文 参考訳(メタデータ) (2023-11-19T00:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。