論文の概要: Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models
- arxiv url: http://arxiv.org/abs/2602.01834v1
- Date: Mon, 02 Feb 2026 09:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.083629
- Title: Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models
- Title(参考訳): 視覚言語行動モデルにおける推論時間安全のための概念ベース辞書学習
- Authors: Siqi Wen, Shu Yang, Shaopeng Fu, Jingfeng Zhang, Lijie Hu, Di Wang,
- Abstract要約: 視覚言語行動(VLA)モデルは、マルチモーダル命令を実行可能な動作に変換することで知覚行動ループを閉じる。
推論時間安全制御のための概念に基づく辞書学習フレームワークを提案する。
Libero-Harm、BadRobot、RoboPair、IS-Benchの実験により、我々のアプローチが最先端の防衛性能を達成することを示す。
- 参考スコア(独自算出の注目度): 30.400796921799778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Action (VLA) models close the perception action loop by translating multimodal instructions into executable behaviors, but this very capability magnifies safety risks: jailbreaks that merely yield toxic text in LLMs can trigger unsafe physical actions in embodied systems. Existing defenses alignment, filtering, or prompt hardening intervene too late or at the wrong modality, leaving fused representations exploitable. We introduce a concept-based dictionary learning framework for inference-time safety control. By constructing sparse, interpretable dictionaries from hidden activations, our method identifies harmful concept directions and applies threshold-based interventions to suppress or block unsafe activations. Experiments on Libero-Harm, BadRobot, RoboPair, and IS-Bench show that our approach achieves state-of-the-art defense performance, cutting attack success rates by over 70\% while maintaining task success. Crucially, the framework is plug-in and model-agnostic, requiring no retraining and integrating seamlessly with diverse VLAs. To our knowledge, this is the first inference-time concept-based safety method for embodied systems, advancing both interpretability and safe deployment of VLA models.
- Abstract(参考訳): 視覚言語行動(VLA)モデルは、マルチモーダル命令を実行可能な行動に変換することで知覚行動ループを閉じるが、この非常に大きな能力は安全性のリスクを増大させる。
既存の防御アライメント、フィルタリング、または急激な硬化は遅すぎるか間違ったモダリティで介入し、融合した表現を悪用したままである。
推論時間安全制御のための概念に基づく辞書学習フレームワークを提案する。
隠れたアクティベーションからスパースな解釈可能な辞書を構築することにより、有害な概念の方向を特定し、安全でないアクティベーションの抑制や阻止にしきい値に基づく介入を適用した。
Libero-Harm、BadRobot、RoboPair、IS-Benchの実験では、我々の手法が最先端の防御性能を達成し、攻撃の成功率を70%以上削減し、タスクの成功を維持できることが示されている。
重要なのは、このフレームワークはプラグインであり、モデルに依存しないため、再トレーニングを必要とせず、多様なVLAとシームレスに統合する。
我々の知る限り、この手法は、VLAモデルの解釈可能性と安全な配置を推し進める、仮想システムのための最初の推論時概念ベースの安全手法である。
関連論文リスト
- SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues [50.928203120795786]
本研究では,視覚言語モデルにおけるマルチモーダル安全性の挙動を,単純な意味的手がかりによって評価できるかどうかを考察する。
シーン内容を変更することなく、テキスト、視覚、認知の介入を制御できるセマンティック・ステアリング・フレームワークを導入する。
論文 参考訳(メタデータ) (2026-03-19T16:18:00Z) - Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration [24.562540060971273]
VLA(Vision-Language-Action)モデルにより、ロボットは自然言語命令から直接操作タスクを実行することができる。
言語命令がシーンに矛盾する場合でも、VLAポリシーが視覚的に妥当な動作を実行し続ける重要な障害モードを明らかにする。
Instruction-Guided Attention Recalibration (IGAR) を提案する。
論文 参考訳(メタデータ) (2026-03-06T08:01:36Z) - Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation [9.129204825142077]
ロボットが見えないものを見ることができるマルチモーダル操作フレームワークであるSafe-Night VLAを提案する。
具体的には、Safe-Night VLAは、長波長赤外線熱知覚を事前訓練された視覚言語バックボーンに統合する。
我々は,フランカマニピュレータを用いた実世界の実験を通じて,我々の枠組みを検証する。
論文 参考訳(メタデータ) (2026-03-05T23:26:44Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models [124.02734355214325]
Vision-Language-Action(VLA)モデルはロボティクスの急速な進歩を加速している。
敵画像はVLAモデルを「凍結」し、その後の命令を無視する。
FreezeVLAは、min-maxバイレベル最適化を通じて、アクション凍結攻撃を生成し、評価する。
論文 参考訳(メタデータ) (2025-09-24T08:15:28Z) - PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack [7.988475248750045]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
従来の敵攻撃がLVLMに埋め込まれた安全機構を回避できる理由を明らかにするために,系統的な表現解析を行う。
LVLMに対する敵攻撃のための2段階評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T04:43:39Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。