Fugu-MT 論文翻訳(概要): Benchmarking Vision-Language Models under Contradictory Virtual Content Attacks in Augmented Reality

論文の概要: Benchmarking Vision-Language Models under Contradictory Virtual Content Attacks in Augmented Reality

arxiv url: http://arxiv.org/abs/2604.05510v2
Date: Sun, 12 Apr 2026 18:17:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 14:47:45.59589
Title: Benchmarking Vision-Language Models under Contradictory Virtual Content Attacks in Augmented Reality
Title（参考訳）: 拡張現実における仮想コンテンツアタックによる視覚言語モデルのベンチマーク
Authors: Yanming Xiu, Zhengyuan Jiang, Neil Zhenqiang Gong, Maria Gorlatova,
Abstract要約: ContrARは、ARにおける仮想コンテンツ操作と矛盾に対する視覚言語モデル(VLM)の堅牢性を評価するための新しいベンチマークである。現在のVLMは、矛盾する仮想コンテンツに対する合理的な理解を示すが、AR環境における敵対的コンテンツ操作の検出と推論における改善の余地は依然として残っている。
参考スコア（独自算出の注目度）: 40.8888548630093
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Augmented reality (AR) has rapidly expanded over the past decade. As AR becomes increasingly integrated into daily life, its security and reliability emerge as critical challenges. Among various threats, contradictory virtual content attacks, where malicious or inconsistent virtual elements are introduced into the user's view, pose a unique risk by misleading users, creating semantic confusion, or delivering harmful information. In this work, we systematically model such attacks and present ContrAR, a novel benchmark for evaluating the robustness of vision-language models (VLMs) against virtual content manipulation and contradiction in AR. ContrAR contains 312 real-world AR videos validated by 10 human participants. We further benchmark 11 VLMs, including both commercial and open-source models. Experimental results reveal that while current VLMs exhibit reasonable understanding of contradictory virtual content, room still remains for improvement in detecting and reasoning about adversarial content manipulations in AR environments. Moreover, balancing detection accuracy and latency remains challenging.
Abstract（参考訳）: 拡張現実(AR)はこの10年間で急速に拡大してきた。 ARが日々の生活にますます統合されるにつれて、そのセキュリティと信頼性は重要な課題として浮かび上がっている。様々な脅威の中で、悪意のある、あるいは矛盾しない仮想要素がユーザーの視点に導入される、矛盾する仮想コンテンツ攻撃は、ユーザを誤解させ、セマンティックな混乱を生じさせ、有害な情報を提供することによって、ユニークなリスクを引き起こす。本研究では,このような攻撃を体系的にモデル化し,仮想コンテンツ操作とARの矛盾に対する視覚言語モデル(VLM)の堅牢性を評価するための新しいベンチマークであるContrARを提示する。 ContrARには、10人の参加者によって検証された現実世界のARビデオが312本含まれている。さらに、商用モデルとオープンソースモデルの両方を含む11のVLMをベンチマークします。実験結果から,現在のVLMでは相反する仮想コンテンツに対する合理的な理解が得られているが,AR環境における対角的コンテンツ操作の検出と推論において,まだ改善の余地が残っていることが明らかとなった。さらに、検出精度とレイテンシのバランスは依然として難しい。

関連論文リスト

Toward Safe, Trustworthy and Realistic Augmented Reality User Experience [0.0]
我々の研究は、特に重要な情報を妨害したり、ユーザーの知覚を微妙に操作するタスク・デトリメンタルARコンテンツのリスクに対処する。視覚言語モデル (VLM) とマルチモーダル推論モジュール (マルチモーダル推論モジュール) を用いて, それらの攻撃を検出する2つのシステム, ViDDAR と VIM-Sense を開発した。
論文参考訳（メタデータ） (2025-07-31T03:42:52Z)
Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文参考訳（メタデータ） (2025-06-14T04:04:54Z)
Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-20T11:21:40Z)
Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文参考訳（メタデータ） (2025-01-23T11:10:02Z)
ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality [8.318350327150437]
ViDDARは拡張現実環境における仮想コンテンツを監視し評価するための総合的な全参照システムである。我々の知る限り、ViDDARは視覚言語モデル(VLM)を用いてAR設定におけるタスク・デトリメンタルなコンテンツを検出する最初のシステムである。
論文参考訳（メタデータ） (2025-01-22T00:17:08Z)
Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble [3.481985817302898]
我々は、ARシーンの識別と記述において、3つの最先端の商用ビジョン・ランゲージ・モデル(VLM)の能力を評価する。以上の結果から, VLMは一般的にARシーンの認識と記述が可能であることが示唆された。仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
論文参考訳（メタデータ） (2025-01-21T23:07:03Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。