論文の概要: Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble
- arxiv url: http://arxiv.org/abs/2501.13964v3
- Date: Sat, 01 Feb 2025 20:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 12:43:15.564990
- Title: Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble
- Title(参考訳): AR生成シーンの理解と評価の促進:視覚言語モデルが輝く時と傾く時
- Authors: Lin Duan, Yanming Xiu, Maria Gorlatova,
- Abstract要約: 我々は、ARシーンの識別と記述において、3つの最先端の商用ビジョン・ランゲージ・モデル(VLM)の能力を評価する。
以上の結果から, VLMは一般的にARシーンの認識と記述が可能であることが示唆された。
仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
- 参考スコア(独自算出の注目度): 3.481985817302898
- License:
- Abstract: Augmented Reality (AR) enhances the real world by integrating virtual content, yet ensuring the quality, usability, and safety of AR experiences presents significant challenges. Could Vision-Language Models (VLMs) offer a solution for the automated evaluation of AR-generated scenes? Could Vision-Language Models (VLMs) offer a solution for the automated evaluation of AR-generated scenes? In this study, we evaluate the capabilities of three state-of-the-art commercial VLMs -- GPT, Gemini, and Claude -- in identifying and describing AR scenes. For this purpose, we use DiverseAR, the first AR dataset specifically designed to assess VLMs' ability to analyze virtual content across a wide range of AR scene complexities. Our findings demonstrate that VLMs are generally capable of perceiving and describing AR scenes, achieving a True Positive Rate (TPR) of up to 93% for perception and 71% for description. While they excel at identifying obvious virtual objects, such as a glowing apple, they struggle when faced with seamlessly integrated content, such as a virtual pot with realistic shadows. Our results highlight both the strengths and the limitations of VLMs in understanding AR scenarios. We identify key factors affecting VLM performance, including virtual content placement, rendering quality, and physical plausibility. This study underscores the potential of VLMs as tools for evaluating the quality of AR experiences.
- Abstract(参考訳): Augmented Reality(AR)は、仮想コンテンツを統合することによって現実世界を強化するが、ARエクスペリエンスの品質、ユーザビリティ、安全性を保証することは、大きな課題である。
VLM(Vision-Language Models)はAR生成シーンの自動評価のためのソリューションを提供するのだろうか?
VLM(Vision-Language Models)はAR生成シーンの自動評価のためのソリューションを提供するのだろうか?
本研究では,ARシーンの特定と記述において,最先端の商用VLMであるGPT,Gemini,Claudeの3つの能力を評価する。
この目的のために、私たちは、VLMがさまざまなARシーンの複雑さにわたって仮想コンテンツを分析できる能力を評価するために設計された、最初のARデータセットであるDiverseARを使用します。
以上の結果から, VLMは一般的にARシーンの知覚・記述が可能であり, 知覚率93%, 記述率71%の正陽性率(TPR)を達成できることがわかった。
彼らは、輝くリンゴのような明らかな仮想物体を特定するのに優れていますが、現実的な影のある仮想ポットのようなシームレスに統合されたコンテンツに直面したときに苦労します。
この結果は,ARシナリオを理解する上でのVLMの長所と短所の両方を強調した。
仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
本研究では,AR体験の質を評価するツールとしてのVLMの可能性を明らかにする。
関連論文リスト
- VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - Video Action Recognition with Attentive Semantic Units [23.384091957466588]
アクションラベルの後ろに隠れているセマンティックユニット()を利用して、より正確なアクション認識を行います。
視覚言語モデル(VLM)の視覚枝にマルチリージョンモジュール(MRA)を導入する。
完全教師付き学習では,Kinetics-400では87.8%の精度でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-03-17T03:44:15Z) - An Empirical Study of End-to-End Video-Language Transformers with Masked
Visual Modeling [152.75131627307567]
Masked Visual Modeling (MVM) は視覚前トレーニングに有効であることが最近証明されている。
VidL学習におけるMVMの可能性について,系統的に検討した。
我々は、MVMで事前トレーニングされたVIOLETv2が、13のVidLベンチマークで顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-04T06:30:32Z) - Retargetable AR: Context-aware Augmented Reality in Indoor Scenes based
on 3D Scene Graph [0.22940141855172028]
Retargetable ARは、さまざまな実環境に設定されたシーンコンテキストを認識したARエクスペリエンスを提供する、新しいARフレームワークである。
本研究では,AR環境のコンテキストを特徴付ける3次元シーングラフを構築した。
構築されたグラフとAR内容のコンテキストを示すARシーングラフとの対応は、意味的に登録されたコンテンツアレンジメントを提供する。
論文 参考訳(メタデータ) (2020-08-18T09:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。