論文の概要: Rethinking the Intermediate Features in Adversarial Attacks: Misleading Robotic Models via Adversarial Distillation
- arxiv url: http://arxiv.org/abs/2411.15222v1
- Date: Thu, 21 Nov 2024 02:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:31.395224
- Title: Rethinking the Intermediate Features in Adversarial Attacks: Misleading Robotic Models via Adversarial Distillation
- Title(参考訳): 敵対的攻撃における中間的特徴の再考:敵対的蒸留によるロボットモデルの誤解
- Authors: Ke Zhao, Huayang Huang, Miao Li, Yu Wu,
- Abstract要約: 本稿では,言語調和型ロボットモデルに適した,新たな対角攻撃を提案する。
本研究は,ロボット領域に直接移行した場合,既存の対角法が有効性に限界があることを実証する。
敵攻撃に対する中間的特徴の有益な影響を同定し,攻撃効果を高めるために,中間的自己意図的特徴の負の勾配を利用する。
- 参考スコア(独自算出の注目度): 23.805401747928745
- License:
- Abstract: Language-conditioned robotic learning has significantly enhanced robot adaptability by enabling a single model to execute diverse tasks in response to verbal commands. Despite these advancements, security vulnerabilities within this domain remain largely unexplored. This paper addresses this gap by proposing a novel adversarial prompt attack tailored to language-conditioned robotic models. Our approach involves crafting a universal adversarial prefix that induces the model to perform unintended actions when added to any original prompt. We demonstrate that existing adversarial techniques exhibit limited effectiveness when directly transferred to the robotic domain due to the inherent robustness of discretized robotic action spaces. To overcome this challenge, we propose to optimize adversarial prefixes based on continuous action representations, circumventing the discretization process. Additionally, we identify the beneficial impact of intermediate features on adversarial attacks and leverage the negative gradient of intermediate self-attention features to further enhance attack efficacy. Extensive experiments on VIMA models across 13 robot manipulation tasks validate the superiority of our method over existing approaches and demonstrate its transferability across different model variants.
- Abstract(参考訳): 言語条件付きロボット学習は、単一のモデルが言語コマンドに応答して多様なタスクを実行できることによって、ロボット適応性を著しく向上させた。
これらの進歩にもかかわらず、このドメイン内のセキュリティの脆弱性はほとんど未解明のままである。
本稿では,言語条件のロボットモデルに合わせた,新たな対角攻撃を提案することで,このギャップに対処する。
我々のアプローチは、元のプロンプトに追加した場合に意図しないアクションを実行するようモデルに誘導する普遍的な逆プレフィックスを作成することである。
本研究は,ロボットの動作空間に固有のロバスト性のため,ロボット領域に直接移動した場合に,既存の対向的手法が限られた有効性を示すことを示す。
この課題を克服するために、連続的な行動表現に基づく敵の接頭辞を最適化し、離散化プロセスを回避することを提案する。
さらに, 攻撃効果を高めるために, 敵攻撃に対する中間的特徴の有益な影響を認識し, 中間的自己意識的特徴の負の勾配を利用する。
13のロボット操作タスクにわたるVIMAモデルに対する広範囲な実験は、既存のアプローチよりも提案手法の優位性を検証し、異なるモデル変種間での伝達可能性を示す。
関連論文リスト
- Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。
また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。
提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T09:44:48Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Continuous ErrP detections during multimodal human-robot interaction [2.5199066832791535]
我々は,シミュレーションロボットが音声やジェスチャーを通じて人間とコミュニケーションする,マルチモーダルなヒューマンロボットインタラクション(HRI)シナリオを実装した。
人間のパートナーは、ロボットが選択した動作(ポインティングジェスチャー)とロボットの口頭発表(意図)が一致しているかを評価する。
脳波で明らかな、人間によるロボット行動の本質的な評価は、リアルタイムで記録され、オンラインで連続的にセグメンテーションされ、非同期に分類された。
論文 参考訳(メタデータ) (2022-07-25T15:39:32Z) - Adversarial Pixel Restoration as a Pretext Task for Transferable
Perturbations [54.1807206010136]
トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。
本稿では,効果的なサロゲートモデルをスクラッチからトレーニングするための自己教師型代替手段として,Adversarial Pixel Restorationを提案する。
我々のトレーニングアプローチは、敵の目標を通したオーバーフィッティングを減らすmin-maxの目標に基づいています。
論文 参考訳(メタデータ) (2022-07-18T17:59:58Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。