論文の概要: See No Evil: Adversarial Attacks Against Linguistic-Visual Association in Referring Multi-Object Tracking Systems
- arxiv url: http://arxiv.org/abs/2509.02028v2
- Date: Wed, 03 Sep 2025 02:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.936884
- Title: See No Evil: Adversarial Attacks Against Linguistic-Visual Association in Referring Multi-Object Tracking Systems
- Title(参考訳): See No Evil:マルチオブジェクト追跡システムの参照における言語的視覚的アソシエーションに対する敵対的攻撃
- Authors: Halima Bouzidi, Haoyu Liu, Mohammad Abdullah Al Faruque,
- Abstract要約: 本稿では,RMOTモデルの参照マッチング機構の統一化を阻止する新しい逆向きフレームワークVEILを提案する。
デジタル・物理的摂動は追跡ロジックの信頼性を損なう可能性を示し、トラックIDスイッチや用語を誘導する。
- 参考スコア(独自算出の注目度): 21.34084466103555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-vision understanding has driven the development of advanced perception systems, most notably the emerging paradigm of Referring Multi-Object Tracking (RMOT). By leveraging natural-language queries, RMOT systems can selectively track objects that satisfy a given semantic description, guided through Transformer-based spatial-temporal reasoning modules. End-to-End (E2E) RMOT models further unify feature extraction, temporal memory, and spatial reasoning within a Transformer backbone, enabling long-range spatial-temporal modeling over fused textual-visual representations. Despite these advances, the reliability and robustness of RMOT remain underexplored. In this paper, we examine the security implications of RMOT systems from a design-logic perspective, identifying adversarial vulnerabilities that compromise both the linguistic-visual referring and track-object matching components. Additionally, we uncover a novel vulnerability in advanced RMOT models employing FIFO-based memory, whereby targeted and consistent attacks on their spatial-temporal reasoning introduce errors that persist within the history buffer over multiple subsequent frames. We present VEIL, a novel adversarial framework designed to disrupt the unified referring-matching mechanisms of RMOT models. We show that carefully crafted digital and physical perturbations can corrupt the tracking logic reliability, inducing track ID switches and terminations. We conduct comprehensive evaluations using the Refer-KITTI dataset to validate the effectiveness of VEIL and demonstrate the urgent need for security-aware RMOT designs for critical large-scale applications.
- Abstract(参考訳): 言語ビジョンの理解は、先進的な知覚システム(特に、参照多目的追跡(RMOT)の新たなパラダイム)の開発を促している。
自然言語クエリを活用することで、RMOTシステムは、Transformerベースの時空間推論モジュールを通してガイドされる、所定の意味記述を満たすオブジェクトを選択的に追跡することができる。
End-to-End (E2E) RMOTモデルは、トランスフォーマーバックボーン内の特徴抽出、時間記憶、空間推論をさらに統一し、融合したテキスト・ビジュアル表現に対する長距離空間時間モデリングを可能にする。
これらの進歩にもかかわらず、RMOTの信頼性と堅牢性は未調査のままである。
本稿では,RMOTシステムのセキュリティ上の意味を設計・論理的観点から検討し,言語・視覚的参照とトラック・オブジェクトのマッチングの両方を損なう敵対的脆弱性を同定する。
さらに、FIFOベースのメモリを用いた先進RMOTモデルの新たな脆弱性を明らかにし、空間的時間的推論に対するターゲット的かつ一貫した攻撃により、複数の後続フレームにまたがる履歴バッファ内に持続するエラーが発生する。
本稿では,RMOTモデルの参照マッチング機構の統一化を阻止する新しい逆向きフレームワークVEILを提案する。
デジタル・物理的摂動は追跡ロジックの信頼性を損なう可能性を示し、トラックIDスイッチや用語を誘導する。
我々は、VEILの有効性を検証するためにRefer-KITTIデータセットを用いて包括的な評価を行い、重要な大規模アプリケーションに対するセキュリティを意識したRMOT設計の必要性を緊急に示す。
関連論文リスト
- CITADEL: Continual Anomaly Detection for Enhanced Learning in IoT Intrusion Detection [9.92596575679496]
IoT(Internet of Things)は、幅広いサイバー脅威に対して脆弱である。
侵入検知システム(IDS)はIoTセキュリティを強化するために広く研究されている。
我々は、良性データから堅牢な表現を抽出する自己教師付き連続学習フレームワークCITADELを提案する。
論文 参考訳(メタデータ) (2025-08-26T21:55:26Z) - Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense [0.0]
ディープニューラルネットワーク(DNN)とジェネレーティブAI(GenAI)は、バックドア攻撃に対してますます脆弱になっている。
本稿では、構造的ゆがみを利用したプロアクティブなフレームワークであるDBOMを紹介し、見えないバックドアの脅威を識別し、中和する。
そこで本研究では,DBOMが下流トレーニングに先立って有毒な画像を確実に検出し,トレーニングパイプラインの安全性を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-08-03T21:58:15Z) - Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion [56.566914768257035]
本稿では,サービス指向環境における視覚言語ナビゲーション(VLN)エージェントを対象とした新たな攻撃フレームワークであるAdversarial Object Fusion(AdvOF)を提案する。
本稿では,通常のナビゲーションタスクに対する最小限の干渉を維持しつつ,敵条件下でのエージェント性能を効果的に劣化させることができることを示す。
この研究は、VLMによるナビゲーションシステムにおけるサービスセキュリティの理解を深め、物理世界展開における堅牢なサービス構成のための計算基盤を提供する。
論文 参考訳(メタデータ) (2025-05-29T09:14:50Z) - Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。
本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。
シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T22:30:17Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Transformer Network for Multi-Person Tracking and Re-Identification in
Unconstrained Environment [0.6798775532273751]
マルチオブジェクトトラッキング(MOT)は、監視、スポーツ分析、自動運転、協調ロボットなど、さまざまな分野に深く応用されている。
我々は、オブジェクト検出とアイデンティティリンクを単一のエンドツーエンドのトレーニング可能なフレームワーク内にマージする統合MOT手法を提唱した。
本システムでは,記憶時記憶モジュールの高機能化を図り,アグリゲータを用いて効果的に記憶時記憶モジュールを符号化する。
論文 参考訳(メタデータ) (2023-12-19T08:15:22Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。