論文の概要: ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality
- arxiv url: http://arxiv.org/abs/2501.12553v1
- Date: Wed, 22 Jan 2025 00:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:43.126142
- Title: ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality
- Title(参考訳): ViDDAR:拡張現実のための視覚言語モデルに基づくタスク記述コンテンツ検出
- Authors: Yanming Xiu, Tim Scargill, Maria Gorlatova,
- Abstract要約: ViDDARは拡張現実環境における仮想コンテンツを監視し評価するための総合的な全参照システムである。
我々の知る限り、ViDDARは視覚言語モデル(VLM)を用いてAR設定におけるタスク・デトリメンタルなコンテンツを検出する最初のシステムである。
- 参考スコア(独自算出の注目度): 2.1506382989223782
- License:
- Abstract: In Augmented Reality (AR), virtual content enhances user experience by providing additional information. However, improperly positioned or designed virtual content can be detrimental to task performance, as it can impair users' ability to accurately interpret real-world information. In this paper we examine two types of task-detrimental virtual content: obstruction attacks, in which virtual content prevents users from seeing real-world objects, and information manipulation attacks, in which virtual content interferes with users' ability to accurately interpret real-world information. We provide a mathematical framework to characterize these attacks and create a custom open-source dataset for attack evaluation. To address these attacks, we introduce ViDDAR (Vision language model-based Task-Detrimental content Detector for Augmented Reality), a comprehensive full-reference system that leverages Vision Language Models (VLMs) and advanced deep learning techniques to monitor and evaluate virtual content in AR environments, employing a user-edge-cloud architecture to balance performance with low latency. To the best of our knowledge, ViDDAR is the first system to employ VLMs for detecting task-detrimental content in AR settings. Our evaluation results demonstrate that ViDDAR effectively understands complex scenes and detects task-detrimental content, achieving up to 92.15% obstruction detection accuracy with a detection latency of 533 ms, and an 82.46% information manipulation content detection accuracy with a latency of 9.62 s.
- Abstract(参考訳): Augmented Reality (AR)では、仮想コンテンツは追加情報を提供することでユーザーエクスペリエンスを向上させる。
しかし、仮想コンテンツを不適切に配置したり、設計したりすることは、実際の情報を正確に解釈する能力を損なう可能性があるため、タスクのパフォーマンスを損なう可能性がある。
本稿では,仮想コンテンツが現実世界のオブジェクトを見るのを妨げている障害攻撃と,仮想コンテンツが現実世界の情報を正確に解釈する能力に干渉する情報操作攻撃の2つのタイプのタスク・デトリメンタル仮想コンテンツについて検討する。
これらの攻撃を特徴付ける数学的フレームワークを提供し、攻撃評価のためのカスタムオープンソースデータセットを作成します。
これらの攻撃に対処するために、視覚言語モデル(VLM)と高度なディープラーニング技術を活用してAR環境における仮想コンテンツを監視し評価し、パフォーマンスと低レイテンシのバランスをとるViDDAR(Vision Language Model-based Task-Detrimental Content Detector for Augmented Reality)を紹介する。
我々の知る限り、VDDARはAR設定におけるタスク・デトリメンタルなコンテンツの検出にVLMを使用した最初のシステムである。
評価の結果,ViDDARは複雑なシーンを効果的に理解し,最大92.15%の妨害検出精度を533ms,82.46%の情報操作コンテンツ検出精度を9.62秒で達成できることがわかった。
関連論文リスト
- "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Learning High-Quality Navigation and Zooming on Omnidirectional Images in Virtual Reality [37.564863636844905]
我々は,VRナビゲーションにおける視覚的明瞭度を高めるために,OmniVRと呼ばれる新しいシステムを提案する。
当社のシステムでは,VRに関心のある対象を,ユーザーが自由に見つけてズームインすることができる。
論文 参考訳(メタデータ) (2024-05-01T07:08:24Z) - Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs [38.02017186215372]
大きな言語モデル(LLM)を視覚領域タスクに統合し、視覚的なLLM(V-LLM)を実現することにより、視覚言語タスクにおける例外的なパフォーマンスを実現している。
しかし、既存のV-LLMは空間的推論と局所化認識が弱い。
画像空間座標に基づく微調整目標が空間認識をV-LLMに注入する方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T03:09:34Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Real or Virtual: A Video Conferencing Background Manipulation-Detection
System [25.94894351460089]
実際のビデオ会議と仮想ビデオ会議のユーザ背景を区別する検出戦略を提案する。
敵が考える異なる敵攻撃に対する検出器の堅牢性を示す。
結果,実物は仮想背景から99.80%の精度で識別できることが判明した。
論文 参考訳(メタデータ) (2022-04-25T08:14:11Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。