論文の概要: On the Adversarial Robustness of 3D Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.06464v1
- Date: Sat, 10 Jan 2026 07:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.828906
- Title: On the Adversarial Robustness of 3D Large Vision-Language Models
- Title(参考訳): 3次元大規模視線モデルにおける逆ロバスト性について
- Authors: Chao Liu, Ngai-Man Cheung,
- Abstract要約: 3次元視覚言語モデル(VLM)は3次元理解タスクにおいて強い推論能力と一般化能力を示す。
2D VLMの以前の研究は、視覚入力の統合は敵攻撃に対する脆弱性を著しく増加させることを示した。
本研究は,3次元VLMにおける対向ロバスト性に関する最初の体系的研究である。
- 参考スコア(独自算出の注目度): 23.749171815087774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Vision-Language Models (VLMs), such as PointLLM and GPT4Point, have shown strong reasoning and generalization abilities in 3D understanding tasks. However, their adversarial robustness remains largely unexplored. Prior work in 2D VLMs has shown that the integration of visual inputs significantly increases vulnerability to adversarial attacks, making these models easier to manipulate into generating toxic or misleading outputs. In this paper, we investigate whether incorporating 3D vision similarly compromises the robustness of 3D VLMs. To this end, we present the first systematic study of adversarial robustness in point-based 3D VLMs. We propose two complementary attack strategies: \textit{Vision Attack}, which perturbs the visual token features produced by the 3D encoder and projector to assess the robustness of vision-language alignment; and \textit{Caption Attack}, which directly manipulates output token sequences to evaluate end-to-end system robustness. Each attack includes both untargeted and targeted variants to measure general vulnerability and susceptibility to controlled manipulation. Our experiments reveal that 3D VLMs exhibit significant adversarial vulnerabilities under untargeted attacks, while demonstrating greater resilience against targeted attacks aimed at forcing specific harmful outputs, compared to their 2D counterparts. These findings highlight the importance of improving the adversarial robustness of 3D VLMs, especially as they are deployed in safety-critical applications.
- Abstract(参考訳): PointLLM や GPT4Point のような 3D Vision-Language Models (VLM) は、3次元理解タスクにおいて強い推論能力と一般化能力を示している。
しかし、その敵対的堅牢性はほとんど未解明のままである。
2D VLMの以前の研究によると、視覚入力の統合は敵の攻撃に対する脆弱性を著しく増加させ、これらのモデルが有害または誤解を招くアウトプットを生成するのを容易にする。
本稿では,3次元視覚を取り入れることで3次元VLMのロバスト性を損なうかどうかを考察する。
そこで本研究では,3次元VLMにおける対向ロバスト性に関する最初の体系的研究について述べる。
本稿では,3次元エンコーダとプロジェクタが生成する視覚トークンの特徴を乱し,視覚的アライメントのロバスト性を評価するための \textit{Vision Attack} と,エンドツーエンドシステムロバスト性を評価するために出力トークンシーケンスを直接操作する \textit{Caption Attack} の2つの補完攻撃戦略を提案する。
各攻撃には、コントロールされた操作に対する一般的な脆弱性と感受性を測定するために、未ターゲットとターゲットの両方の派生が含まれている。
実験の結果,3D VLMは標的外攻撃において重大な敵の脆弱性を示す一方で,特定の有害なアウトプットを強制する標的攻撃に対するレジリエンスも2Dと比較して高いことが示された。
これらの知見は, 3次元VLMの対向性向上の重要性を浮き彫りにした。
関連論文リスト
- Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - Reinforced Embodied Active Defense: Exploiting Adaptive Interaction for Robust Visual Perception in Adversarial 3D Environments [26.37868865624549]
3次元環境における敵対的攻撃は、視覚知覚システムの信頼性に対する重要な脅威として現れてきた。
本稿では,環境への適応的探索と相互作用を活用する能動的防衛フレームワークであるReinforced Embodied Active Defense (Rein-EAD)を紹介する。
Rein-EADは、目に見えない、適応的な攻撃に対して堅牢な一般化を示し、現実世界の複雑なタスクに適している。
論文 参考訳(メタデータ) (2025-07-24T14:56:21Z) - AdvMono3D: Advanced Monocular 3D Object Detection with Depth-Aware
Robust Adversarial Training [64.14759275211115]
そこで本研究では,DART3Dと呼ばれるモノクル3次元物体検出のための,深度対応の頑健な対向学習法を提案する。
我々の敵の訓練アプローチは、本質的な不確実性に乗じて、敵の攻撃に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-03T07:05:32Z) - On the Adversarial Robustness of Camera-based 3D Object Detection [21.091078268929667]
本研究では, カメラを用いた3次元物体検出手法の諸条件下でのロバスト性について検討する。
鳥眼ビューに基づく表現は, 局所攻撃に対する強い強靭性を示す。
深さ推定のないアプローチは、強い強靭性を示す可能性がある。
マルチフレームベニグインプットを組み込むことで、敵攻撃を効果的に軽減することができる。
論文 参考訳(メタデータ) (2023-01-25T18:59:15Z) - A Comprehensive Study of the Robustness for LiDAR-based 3D Object
Detectors against Adversarial Attacks [84.10546708708554]
3Dオブジェクト検出器は、セキュリティクリティカルなタスクにおいてますます重要になっている。
敵の攻撃に対する強固さを理解することが不可欠である。
本稿では,LiDARをベースとした3次元検出器の対角攻撃時のロバスト性評価と解析を行った。
論文 参考訳(メタデータ) (2022-12-20T13:09:58Z) - Exploring Adversarial Robustness of Multi-Sensor Perception Systems in
Self Driving [87.3492357041748]
本稿では,敵物体をホスト車両の上に配置することで,マルチセンサ検出の実用的感受性を示す。
実験の結果, 攻撃が成功した原因は主に画像の特徴が損なわれやすいことが判明した。
よりロバストなマルチモーダル知覚システムに向けて,特徴分断を伴う敵対的訓練が,このような攻撃に対するロバスト性を大幅に高めることを示す。
論文 参考訳(メタデータ) (2021-01-17T21:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。