論文の概要: Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion
- arxiv url: http://arxiv.org/abs/2505.23266v1
- Date: Thu, 29 May 2025 09:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.77964
- Title: Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion
- Title(参考訳): 対向物体融合による視覚・言語モデル駆動ナビゲーションサービス
- Authors: Chunlong Xie, Jialing He, Shangwei Guo, Jiacheng Wang, Shudong Zhang, Tianwei Zhang, Tao Xiang,
- Abstract要約: 本稿では,サービス指向環境における視覚言語ナビゲーション(VLN)エージェントを対象とした新たな攻撃フレームワークであるAdversarial Object Fusion(AdvOF)を提案する。
本稿では,通常のナビゲーションタスクに対する最小限の干渉を維持しつつ,敵条件下でのエージェント性能を効果的に劣化させることができることを示す。
この研究は、VLMによるナビゲーションシステムにおけるサービスセキュリティの理解を深め、物理世界展開における堅牢なサービス構成のための計算基盤を提供する。
- 参考スコア(独自算出の注目度): 56.566914768257035
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Adversarial Object Fusion (AdvOF), a novel attack framework targeting vision-and-language navigation (VLN) agents in service-oriented environments by generating adversarial 3D objects. While foundational models like Large Language Models (LLMs) and Vision Language Models (VLMs) have enhanced service-oriented navigation systems through improved perception and decision-making, their integration introduces vulnerabilities in mission-critical service workflows. Existing adversarial attacks fail to address service computing contexts, where reliability and quality-of-service (QoS) are paramount. We utilize AdvOF to investigate and explore the impact of adversarial environments on the VLM-based perception module of VLN agents. In particular, AdvOF first precisely aggregates and aligns the victim object positions in both 2D and 3D space, defining and rendering adversarial objects. Then, we collaboratively optimize the adversarial object with regularization between the adversarial and victim object across physical properties and VLM perceptions. Through assigning importance weights to varying views, the optimization is processed stably and multi-viewedly by iterative fusions from local updates and justifications. Our extensive evaluations demonstrate AdvOF can effectively degrade agent performance under adversarial conditions while maintaining minimal interference with normal navigation tasks. This work advances the understanding of service security in VLM-powered navigation systems, providing computational foundations for robust service composition in physical-world deployments.
- Abstract(参考訳): 本稿では,サービス指向環境における視覚・言語ナビゲーション(VLN)エージェントを対象とした新たな攻撃フレームワークであるAdvOFを提案する。
LLM(Large Language Models)やVLM(Vision Language Models)といった基本的なモデルは、認識と意思決定の改善を通じてサービス指向ナビゲーションシステムを強化していますが、彼らの統合はミッションクリティカルなサービスワークフローに脆弱性を導入しています。
既存の敵攻撃は、信頼性とQoS(Quality-of-Service)が最重要であるサービスコンピューティングのコンテキストに対処できない。
本稿では,VLNエージェントのVLMに基づく知覚モジュールに対する敵環境の影響を調査・調査するためにAdvOFを利用する。
特にAdvOFは、まず2D空間と3D空間の両方で被害者のオブジェクトの位置を正確に集計し、調整し、敵のオブジェクトを定義してレンダリングする。
次に, 対向対象と被害者対象とを物理的特性とVLM知覚の相乗効果で協調的に最適化する。
重み付けを様々なビューに割り当てることで、最適化は局所的な更新と正当化からの反復的な融合によって安定かつ多ビューに処理される。
本稿では,AdvOFが通常のナビゲーションタスクとの干渉を最小限に抑えつつ,敵条件下でのエージェント性能を効果的に低下させることができることを示す。
この研究は、VLMによるナビゲーションシステムにおけるサービスセキュリティの理解を深め、物理世界展開における堅牢なサービス構成のための計算基盤を提供する。
関連論文リスト
- TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - VMGuard: Reputation-Based Incentive Mechanism for Poisoning Attack Detection in Vehicular Metaverse [52.57251742991769]
車両メタバースガード(VMGuard)は、車両メタバースシステムをデータ中毒攻撃から保護する。
VMGuardは、参加するSIoTデバイスの信頼性を評価するために、評判に基づくインセンティブメカニズムを実装している。
当社のシステムは,従来は誤分類されていた信頼性の高いSIoTデバイスが,今後の市場ラウンドへの参加を禁止していないことを保証します。
論文 参考訳(メタデータ) (2024-12-05T17:08:20Z) - Hijacking Vision-and-Language Navigation Agents with Adversarial Environmental Attacks [12.96291706848273]
VLN(Vision-and-Language Navigation)は、視覚・言語ナビゲーションのタスク。
ホワイトボックスの敵攻撃は、事前訓練されたVLNエージェントの望ましい行動を引き起こすために開発された。
攻撃は早期終了行動を引き起こすか、攻撃者が定義した多段階軌道に沿ってエージェントを分散させることができる。
論文 参考訳(メタデータ) (2024-12-03T19:54:32Z) - Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - Improving Zero-Shot ObjectNav with Generative Communication [60.84730028539513]
ゼロショットObjectNavの改良手法を提案する。
私たちのアプローチは、接地エージェントが制限され、時には障害のあるビューを持つ可能性があることを考慮に入れています。
論文 参考訳(メタデータ) (2024-08-03T22:55:26Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。