論文の概要: CEE: An Inference-Time Jailbreak Defense for Embodied Intelligence via Subspace Concept Rotation
- arxiv url: http://arxiv.org/abs/2504.13201v2
- Date: Thu, 31 Jul 2025 06:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.964191
- Title: CEE: An Inference-Time Jailbreak Defense for Embodied Intelligence via Subspace Concept Rotation
- Title(参考訳): CEE: サブスペース概念回転による身体情報のための推論時ジェイルブレイク防御
- Authors: Jirui Yang, Zheyu Lin, Zhihui Lu, Yinggui Wang, Lei Wang, Tao Wei, Xin Du, Shuhan Yang,
- Abstract要約: 大規模言語モデル(LLM)は、エンボディード・インテリジェンス(Embodied Intelligence, EI)システムの認知的コアになりつつある。
我々は,概念強化工学(CEE)という,新規で効率的な推論時防衛フレームワークを提案する。
CEEはモデルの内部表現を直接操作することで、モデル固有の安全性メカニズムを強化する。
- 参考スコア(独自算出の注目度): 23.07221882519171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly becoming the cognitive core of Embodied Intelligence (EI) systems, such as robots and autonomous vehicles. However, this integration also exposes them to serious jailbreak risks, where malicious instructions can be transformed into dangerous physical actions. Existing defense mechanisms suffer from notable drawbacks--including high training costs, significant inference delays, and complex hyperparameter tuning--which limit their practical applicability. To address these challenges, we propose a novel and efficient inference-time defense framework: Concept Enhancement Engineering (CEE). CEE enhances the model's inherent safety mechanisms by directly manipulating its internal representations, requiring neither additional training nor external modules, thereby improving defense efficiency. Furthermore, CEE introduces a rotation-based control mechanism that enables stable and linearly tunable behavioral control of the model. This design eliminates the need for tedious manual tuning and avoids the output degradation issues commonly observed in other representation engineering methods. Extensive experiments across multiple EI safety benchmarks and diverse attack scenarios demonstrate that CEE significantly improves the defense success rates of various multimodal LLMs. It effectively mitigates safety risks while preserving high-quality generation and inference efficiency, offering a promising solution for deploying safer embodied intelligence systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ロボットや自律走行車といった身体的知能(EI)システムの認知的中核になりつつある。
しかし、この統合はまた、悪意のある命令を危険な物理的アクションに変換する、深刻なジェイルブレイクのリスクにさらされる。
既存の防御機構は、高い訓練コスト、大きな推論遅延、複雑なハイパーパラメータチューニングを含む、その実用性を制限する顕著な欠点に悩まされている。
これらの課題に対処するため,我々は,概念強化工学(CEE)という,新規かつ効率的な推論時防衛フレームワークを提案する。
CEEは、内部表現を直接操作し、追加のトレーニングも外部モジュールも必要とせず、防御効率を向上させることによって、モデル固有の安全性メカニズムを強化する。
さらに、CEEは、モデルを安定かつ線形に調整可能な動作制御を可能にする回転制御機構を導入している。
この設計は、面倒な手動チューニングの必要性を排除し、他の表現工学手法でよく見られる出力劣化問題を回避する。
複数のEI安全性ベンチマークと多様な攻撃シナリオにわたる大規模な実験により、CEEは様々なマルチモーダルLCMの防衛成功率を大幅に改善することが示された。
高品質な生成と推論効率を維持しながら、安全リスクを効果的に軽減し、より安全なエンボディドインテリジェンスシステムを展開するための有望なソリューションを提供する。
関連論文リスト
- An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - How Jailbreak Defenses Work and Ensemble? A Mechanistic Investigation [39.44000290664494]
ジェイルブレイク攻撃は、生成モデルのビルトインセーフをバイパスする有害なプロンプトであり、モデルの脆弱性に対する深刻な懸念を引き起こす。
本稿では,標準生成タスクをバイナリ分類問題として再検討することにより,ジェイルブレイク防御を体系的に検討する。
我々は,全てのクエリに対する拒絶率を増加させる安全性シフトと,有害な入力と良質な入力を区別するモデルの能力を向上させる有害性判別という2つの主要な防御メカニズムを同定する。
論文 参考訳(メタデータ) (2025-02-20T12:07:40Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [25.212057612342218]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全性対策を回避し、有害な出力を生成するジェイルブレイク攻撃の影響を受けやすい。
この問題に対処するために,ポストアウェアフレームワークを用いたラテントスペース・アドバイザリアル・トレーニングを提案する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Attention-Based Real-Time Defenses for Physical Adversarial Attacks in
Vision Applications [58.06882713631082]
ディープニューラルネットワークはコンピュータビジョンタスクにおいて優れたパフォーマンスを示すが、現実の敵攻撃に対する脆弱性は深刻なセキュリティ上の懸念を引き起こす。
本稿では、敵チャネルの注意力を利用して、浅いネットワーク層における悪意のある物体を素早く識別・追跡する、効果的な注意に基づく防御機構を提案する。
また、効率的な多フレーム防御フレームワークを導入し、防御性能と計算コストの両方を評価することを目的とした広範な実験を通じて、その有効性を検証した。
論文 参考訳(メタデータ) (2023-11-19T00:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。