論文の概要: Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble
- arxiv url: http://arxiv.org/abs/2501.13964v3
- Date: Sat, 01 Feb 2025 20:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:15.564990
- Title: Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble
- Title(参考訳): AR生成シーンの理解と評価の促進:視覚言語モデルが輝く時と傾く時
- Authors: Lin Duan, Yanming Xiu, Maria Gorlatova,
- Abstract要約: 我々は、ARシーンの識別と記述において、3つの最先端の商用ビジョン・ランゲージ・モデル(VLM)の能力を評価する。
以上の結果から, VLMは一般的にARシーンの認識と記述が可能であることが示唆された。
仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
- 参考スコア(独自算出の注目度): 3.481985817302898
- License:
- Abstract: Augmented Reality (AR) enhances the real world by integrating virtual content, yet ensuring the quality, usability, and safety of AR experiences presents significant challenges. Could Vision-Language Models (VLMs) offer a solution for the automated evaluation of AR-generated scenes? Could Vision-Language Models (VLMs) offer a solution for the automated evaluation of AR-generated scenes? In this study, we evaluate the capabilities of three state-of-the-art commercial VLMs -- GPT, Gemini, and Claude -- in identifying and describing AR scenes. For this purpose, we use DiverseAR, the first AR dataset specifically designed to assess VLMs' ability to analyze virtual content across a wide range of AR scene complexities. Our findings demonstrate that VLMs are generally capable of perceiving and describing AR scenes, achieving a True Positive Rate (TPR) of up to 93% for perception and 71% for description. While they excel at identifying obvious virtual objects, such as a glowing apple, they struggle when faced with seamlessly integrated content, such as a virtual pot with realistic shadows. Our results highlight both the strengths and the limitations of VLMs in understanding AR scenarios. We identify key factors affecting VLM performance, including virtual content placement, rendering quality, and physical plausibility. This study underscores the potential of VLMs as tools for evaluating the quality of AR experiences.
- Abstract(参考訳): Augmented Reality(AR)は、仮想コンテンツを統合することによって現実世界を強化するが、ARエクスペリエンスの品質、ユーザビリティ、安全性を保証することは、大きな課題である。
VLM(Vision-Language Models)はAR生成シーンの自動評価のためのソリューションを提供するのだろうか?
VLM(Vision-Language Models)はAR生成シーンの自動評価のためのソリューションを提供するのだろうか?
本研究では,ARシーンの特定と記述において,最先端の商用VLMであるGPT,Gemini,Claudeの3つの能力を評価する。
この目的のために、私たちは、VLMがさまざまなARシーンの複雑さにわたって仮想コンテンツを分析できる能力を評価するために設計された、最初のARデータセットであるDiverseARを使用します。
以上の結果から, VLMは一般的にARシーンの知覚・記述が可能であり, 知覚率93%, 記述率71%の正陽性率(TPR)を達成できることがわかった。
彼らは、輝くリンゴのような明らかな仮想物体を特定するのに優れていますが、現実的な影のある仮想ポットのようなシームレスに統合されたコンテンツに直面したときに苦労します。
この結果は,ARシナリオを理解する上でのVLMの長所と短所の両方を強調した。
仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
本研究では,AR体験の質を評価するツールとしてのVLMの可能性を明らかにする。
関連論文リスト
- iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.381263829108405]
VLM(Vision-Language Models)は、空間的推論と視覚的アライメントに苦しむことで知られている。
エージェントとして機能するVLMの空間的推論能力を評価するために設計された,インタラクティブなマルチモーダルベンチマークであるiVISPARを紹介する。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality [2.1506382989223782]
ViDDARは拡張現実環境における仮想コンテンツを監視し評価するための総合的な全参照システムである。
我々の知る限り、ViDDARは視覚言語モデル(VLM)を用いてAR設定におけるタスク・デトリメンタルなコンテンツを検出する最初のシステムである。
論文 参考訳(メタデータ) (2025-01-22T00:17:08Z) - ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。
両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。
ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-12-29T10:13:30Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - An Empirical Study of End-to-End Video-Language Transformers with Masked
Visual Modeling [152.75131627307567]
Masked Visual Modeling (MVM) は視覚前トレーニングに有効であることが最近証明されている。
VidL学習におけるMVMの可能性について,系統的に検討した。
我々は、MVMで事前トレーニングされたVIOLETv2が、13のVidLベンチマークで顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-04T06:30:32Z) - Retargetable AR: Context-aware Augmented Reality in Indoor Scenes based
on 3D Scene Graph [0.22940141855172028]
Retargetable ARは、さまざまな実環境に設定されたシーンコンテキストを認識したARエクスペリエンスを提供する、新しいARフレームワークである。
本研究では,AR環境のコンテキストを特徴付ける3次元シーングラフを構築した。
構築されたグラフとAR内容のコンテキストを示すARシーングラフとの対応は、意味的に登録されたコンテンツアレンジメントを提供する。
論文 参考訳(メタデータ) (2020-08-18T09:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。