論文の概要: Detecting Visual Information Manipulation Attacks in Augmented Reality: A Multimodal Semantic Reasoning Approach
- arxiv url: http://arxiv.org/abs/2507.20356v2
- Date: Thu, 31 Jul 2025 03:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.68521
- Title: Detecting Visual Information Manipulation Attacks in Augmented Reality: A Multimodal Semantic Reasoning Approach
- Title(参考訳): 拡張現実における視覚情報操作攻撃の検出:マルチモーダル・セマンティック・推論アプローチ
- Authors: Yanming Xiu, Maria Gorlatova,
- Abstract要約: 拡張現実(AR)における視覚情報操作(VIM)攻撃に焦点を当てる
本稿では,これらの攻撃を,文字,フレーズ,パターン操作という3つの形式に分類し,情報置換,情報難読化,余分な誤った情報という3つの目的に分類する。
このような攻撃を検出するために,マルチモーダルなセマンティック推論フレームワークVIM-Senseを提案する。
- 参考スコア(独自算出の注目度): 2.4171019220503402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The virtual content in augmented reality (AR) can introduce misleading or harmful information, leading to semantic misunderstandings or user errors. In this work, we focus on visual information manipulation (VIM) attacks in AR where virtual content changes the meaning of real-world scenes in subtle but impactful ways. We introduce a taxonomy that categorizes these attacks into three formats: character, phrase, and pattern manipulation, and three purposes: information replacement, information obfuscation, and extra wrong information. Based on the taxonomy, we construct a dataset, AR-VIM. It consists of 452 raw-AR video pairs spanning 202 different scenes, each simulating a real-world AR scenario. To detect such attacks, we propose a multimodal semantic reasoning framework, VIM-Sense. It combines the language and visual understanding capabilities of vision-language models (VLMs) with optical character recognition (OCR)-based textual analysis. VIM-Sense achieves an attack detection accuracy of 88.94% on AR-VIM, consistently outperforming vision-only and text-only baselines. The system reaches an average attack detection latency of 7.07 seconds in a simulated video processing framework and 7.17 seconds in a real-world evaluation conducted on a mobile Android AR application.
- Abstract(参考訳): 拡張現実(AR)における仮想コンテンツは、誤解を招く情報や有害な情報を導入し、セマンティックな誤解やユーザーエラーにつながる可能性がある。
本研究では、仮想コンテンツが現実世界のシーンの意味を微妙に変化させるARにおける視覚情報操作(VIM)攻撃に焦点を当てる。
本稿では,これらの攻撃を,文字,フレーズ,パターン操作という3つの形式に分類し,情報置換,情報難読化,余分な誤った情報という3つの目的に分類する。
分類学に基づいて,我々はAR-VIMというデータセットを構築した。
202のシーンにまたがる452の生のARビデオペアで構成され、それぞれが現実世界のARシナリオをシミュレートする。
このような攻撃を検出するために,マルチモーダルなセマンティック推論フレームワークVIM-Senseを提案する。
視覚言語モデル(VLM)の言語と視覚的理解能力と、光学文字認識(OCR)に基づくテキスト解析を組み合わせる。
VIM-Senseは、AR-VIMで88.94%の攻撃検出精度を達成し、視覚のみのベースラインとテキストのみのベースラインを一貫して上回っている。
シミュレーションビデオ処理フレームワークでは,平均攻撃検出レイテンシが7.07秒,モバイルAndroid ARアプリケーションでは7.17秒に達する。
関連論文リスト
- VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality [2.1506382989223782]
ViDDARは拡張現実環境における仮想コンテンツを監視し評価するための総合的な全参照システムである。
我々の知る限り、ViDDARは視覚言語モデル(VLM)を用いてAR設定におけるタスク・デトリメンタルなコンテンツを検出する最初のシステムである。
論文 参考訳(メタデータ) (2025-01-22T00:17:08Z) - Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble [3.481985817302898]
我々は、ARシーンの識別と記述において、3つの最先端の商用ビジョン・ランゲージ・モデル(VLM)の能力を評価する。
以上の結果から, VLMは一般的にARシーンの認識と記述が可能であることが示唆された。
仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
論文 参考訳(メタデータ) (2025-01-21T23:07:03Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - ViA: View-invariant Skeleton Action Representation Learning via Motion
Retargeting [10.811088895926776]
ViAは、自己教師付き骨格行動表現学習のための新しいビュー不変オートエンコーダである。
本研究では,実世界のデータに基づく自己教師付き事前学習による骨格に基づく行動認識のための移動学習に焦点を当てた研究を行う。
以上の結果から,ViAから得られた骨格表現は,最先端の動作分類精度を向上させるのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-08-31T18:49:38Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。