Fugu-MT 論文翻訳(概要): Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble

論文の概要: Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble

arxiv url: http://arxiv.org/abs/2501.13964v3
Date: Sat, 01 Feb 2025 20:27:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 14:01:55.098719
Title: Advancing the Understanding and Evaluation of AR-Generated Scenes: When Vision-Language Models Shine and Stumble
Title（参考訳）: AR生成シーンの理解と評価の促進:視覚言語モデルが輝く時と傾く時
Authors: Lin Duan, Yanming Xiu, Maria Gorlatova,
Abstract要約: 我々は、ARシーンの識別と記述において、3つの最先端の商用ビジョン・ランゲージ・モデル(VLM)の能力を評価する。以上の結果から, VLMは一般的にARシーンの認識と記述が可能であることが示唆された。仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。
参考スコア（独自算出の注目度）: 3.481985817302898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Augmented Reality (AR) enhances the real world by integrating virtual content, yet ensuring the quality, usability, and safety of AR experiences presents significant challenges. Could Vision-Language Models (VLMs) offer a solution for the automated evaluation of AR-generated scenes? Could Vision-Language Models (VLMs) offer a solution for the automated evaluation of AR-generated scenes? In this study, we evaluate the capabilities of three state-of-the-art commercial VLMs -- GPT, Gemini, and Claude -- in identifying and describing AR scenes. For this purpose, we use DiverseAR, the first AR dataset specifically designed to assess VLMs' ability to analyze virtual content across a wide range of AR scene complexities. Our findings demonstrate that VLMs are generally capable of perceiving and describing AR scenes, achieving a True Positive Rate (TPR) of up to 93% for perception and 71% for description. While they excel at identifying obvious virtual objects, such as a glowing apple, they struggle when faced with seamlessly integrated content, such as a virtual pot with realistic shadows. Our results highlight both the strengths and the limitations of VLMs in understanding AR scenarios. We identify key factors affecting VLM performance, including virtual content placement, rendering quality, and physical plausibility. This study underscores the potential of VLMs as tools for evaluating the quality of AR experiences.
Abstract（参考訳）: Augmented Reality(AR)は、仮想コンテンツを統合することによって現実世界を強化するが、ARエクスペリエンスの品質、ユーザビリティ、安全性を保証することは、大きな課題である。 VLM(Vision-Language Models)はAR生成シーンの自動評価のためのソリューションを提供するのだろうか? VLM(Vision-Language Models)はAR生成シーンの自動評価のためのソリューションを提供するのだろうか? 本研究では,ARシーンの特定と記述において,最先端の商用VLMであるGPT,Gemini,Claudeの3つの能力を評価する。この目的のために、私たちは、VLMがさまざまなARシーンの複雑さにわたって仮想コンテンツを分析できる能力を評価するために設計された、最初のARデータセットであるDiverseARを使用します。以上の結果から, VLMは一般的にARシーンの知覚・記述が可能であり, 知覚率93%, 記述率71%の正陽性率(TPR)を達成できることがわかった。彼らは、輝くリンゴのような明らかな仮想物体を特定するのに優れていますが、現実的な影のある仮想ポットのようなシームレスに統合されたコンテンツに直面したときに苦労します。この結果は,ARシナリオを理解する上でのVLMの長所と短所の両方を強調した。仮想コンテンツ配置,レンダリング品質,物理的妥当性など,VLMのパフォーマンスに影響を及ぼす重要な要因を同定する。本研究では,AR体験の質を評価するツールとしてのVLMの可能性を明らかにする。

関連論文リスト

Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文参考訳（メタデータ） (2025-04-22T17:38:01Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文参考訳（メタデータ） (2025-03-08T01:22:10Z)
ViDDAR: Vision Language Model-Based Task-Detrimental Content Detection for Augmented Reality [2.1506382989223782]
ViDDARは拡張現実環境における仮想コンテンツを監視し評価するための総合的な全参照システムである。我々の知る限り、ViDDARは視覚言語モデル(VLM)を用いてAR設定におけるタスク・デトリメンタルなコンテンツを検出する最初のシステムである。
論文参考訳（メタデータ） (2025-01-22T00:17:08Z)
ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。 ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-12-29T10:13:30Z)
VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。 VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。 VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文参考訳（メタデータ） (2024-11-06T09:39:52Z)
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。 5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文参考訳（メタデータ） (2024-10-28T17:55:08Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文参考訳（メタデータ） (2023-07-28T02:23:35Z)
ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-05-01T17:57:01Z)
Retargetable AR: Context-aware Augmented Reality in Indoor Scenes based on 3D Scene Graph [0.22940141855172028]
Retargetable ARは、さまざまな実環境に設定されたシーンコンテキストを認識したARエクスペリエンスを提供する、新しいARフレームワークである。本研究では,AR環境のコンテキストを特徴付ける3次元シーングラフを構築した。構築されたグラフとAR内容のコンテキストを示すARシーングラフとの対応は、意味的に登録されたコンテンツアレンジメントを提供する。
論文参考訳（メタデータ） (2020-08-18T09:25:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。