論文の概要: Toward Safe, Trustworthy and Realistic Augmented Reality User Experience
- arxiv url: http://arxiv.org/abs/2507.23226v1
- Date: Thu, 31 Jul 2025 03:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.026107
- Title: Toward Safe, Trustworthy and Realistic Augmented Reality User Experience
- Title(参考訳): 安全な、信頼できる、現実的な拡張現実ユーザーエクスペリエンスを目指して
- Authors: Yanming Xiu,
- Abstract要約: 我々の研究は、特に重要な情報を妨害したり、ユーザーの知覚を微妙に操作するタスク・デトリメンタルARコンテンツのリスクに対処する。
視覚言語モデル (VLM) とマルチモーダル推論モジュール (マルチモーダル推論モジュール) を用いて, それらの攻撃を検出する2つのシステム, ViDDAR と VIM-Sense を開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As augmented reality (AR) becomes increasingly integrated into everyday life, ensuring the safety and trustworthiness of its virtual content is critical. Our research addresses the risks of task-detrimental AR content, particularly that which obstructs critical information or subtly manipulates user perception. We developed two systems, ViDDAR and VIM-Sense, to detect such attacks using vision-language models (VLMs) and multimodal reasoning modules. Building on this foundation, we propose three future directions: automated, perceptually aligned quality assessment of virtual content; detection of multimodal attacks; and adaptation of VLMs for efficient and user-centered deployment on AR devices. Overall, our work aims to establish a scalable, human-aligned framework for safeguarding AR experiences and seeks feedback on perceptual modeling, multimodal AR content implementation, and lightweight model adaptation.
- Abstract(参考訳): 拡張現実(AR)が日々の生活に統合されるにつれて、バーチャルコンテンツの安全性と信頼性が重要になる。
我々の研究は、特に重要な情報を妨害したり、ユーザーの知覚を微妙に操作するタスク・デトリメンタルARコンテンツのリスクに対処する。
視覚言語モデル (VLM) とマルチモーダル推論モジュール (マルチモーダル推論モジュール) を用いて, それらの攻撃を検出する2つのシステム, ViDDAR と VIM-Sense を開発した。
この基盤を基盤として,仮想コンテンツの品質評価の自動化,マルチモーダル攻撃の検出,ARデバイスへの効率的なユーザ中心デプロイメントのためのVLMの適応という,3つの今後の方向性を提案する。
全体として、私たちの研究は、ARエクスペリエンスを保護し、知覚モデリング、マルチモーダルなARコンテンツ実装、軽量なモデル適応に関するフィードバックを求める、スケーラブルで人間と協調したフレームワークを確立することを目的としています。
関連論文リスト
- Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.75428247670665]
この研究では、真理、安全性、公正、プライバシの5次元にわたるビデオLLMを評価するベンチマークを紹介します。
現状の映像LLMを23本評価したところ,動的シーン理解とクロスモーダルレジリエンスに大きな限界が認められた。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion [56.566914768257035]
本稿では,サービス指向環境における視覚言語ナビゲーション(VLN)エージェントを対象とした新たな攻撃フレームワークであるAdversarial Object Fusion(AdvOF)を提案する。
本稿では,通常のナビゲーションタスクに対する最小限の干渉を維持しつつ,敵条件下でのエージェント性能を効果的に劣化させることができることを示す。
この研究は、VLMによるナビゲーションシステムにおけるサービスセキュリティの理解を深め、物理世界展開における堅牢なサービス構成のための計算基盤を提供する。
論文 参考訳(メタデータ) (2025-05-29T09:14:50Z) - ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality [2.1506382989223782]
ViDDARは拡張現実環境における仮想コンテンツを監視し評価するための総合的な全参照システムである。
我々の知る限り、ViDDARは視覚言語モデル(VLM)を用いてAR設定におけるタスク・デトリメンタルなコンテンツを検出する最初のシステムである。
論文 参考訳(メタデータ) (2025-01-22T00:17:08Z) - Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble [3.481985817302898]
我々は、ARシーンの識別と記述において、3つの最先端の商用ビジョン・ランゲージ・モデル(VLM)の能力を評価する。
以上の結果から, VLMは一般的にARシーンの認識と記述が可能であることが示唆された。
仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
論文 参考訳(メタデータ) (2025-01-21T23:07:03Z) - Towards Ubiquitous Semantic Metaverse: Challenges, Approaches, and
Opportunities [68.03971716740823]
近年,拡張現実(AR)および仮想現実(VR)ユーザーのための没入型サイバーバーチャル体験に革命をもたらすために,ユビキタスセマンティック・メタバースが研究されている。
この調査は、ユビキタスメタバースにおける4つの基本システムコンポーネントの表現とインテリジェンスに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-13T11:14:46Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - Joint Sensing, Communication, and AI: A Trifecta for Resilient THz User
Experiences [118.91584633024907]
テラヘルツ(THz)無線システムに対する拡張現実(XR)体験を最適化するために、新しい共同センシング、通信、人工知能(AI)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-29T00:39:50Z) - Building Trust in Autonomous Vehicles: Role of Virtual Reality Driving
Simulators in HMI Design [8.39368916644651]
本研究では,生理的信号から収集した連続的客観的情報に基づいて,AVのユーザエクスペリエンスを検証する手法を提案する。
本手法を車両の感覚・計画システムに関する視覚的手がかりを提供するヘッドアップディスプレイインタフェースの設計に適用した。
論文 参考訳(メタデータ) (2020-07-27T08:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。