論文の概要: WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios
- arxiv url: http://arxiv.org/abs/2511.22154v2
- Date: Tue, 02 Dec 2025 08:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 14:50:32.053385
- Title: WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios
- Title(参考訳): WearVQA:Egocentric Authentic Real-worldシナリオにおけるウェアラブルの視覚的回答ベンチマーク
- Authors: Eun Chang, Zhuangqun Huang, Yiwei Liao, Sagar Ravi Bhavsar, Amogh Param, Tammy Stark, Adel Ahmadyan, Xiao Yang, Jiaqi Wang, Ahsan Abdullah, Giang Nguyen, Akil Iyer, David Hall, Elissa Li, Shane Moon, Nicolas Scheffer, Kirmani Ahmed, Babak Damavandi, Rakesh Wanga, Anuj Kumar, Rohit Patel, Xin Luna Dong,
- Abstract要約: 我々は、スマートグラスのようなウェアラブルデバイス上で、マルチモデルAIアシスタントの視覚質問回答機能を評価するために設計された最初のベンチマークであるWearVQAを紹介する。
WearVQAは、エゴ中心のインタラクションのユニークな課題を反映している。
ベンチマークは、2,520個の精巧にキュレートされた画像検索用三つ子で構成され、7つの異なる画像ドメインにまたがる。
- 参考スコア(独自算出の注目度): 19.156760664417718
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce WearVQA, the first benchmark specifically designed to evaluate the Visual Question Answering (VQA) capabilities of multi-model AI assistant on wearable devices like smart glasses. Unlike prior benchmarks that focus on high-quality, third-person imagery, WearVQA reflects the unique challenges of ego-centric interaction-where visual inputs may be occluded, poorly lit, unzoomed, or blurry, and questions are grounded in realistic wearable use cases. The benchmark comprises 2,520 carefully curated image-question-answer triplets, spanning 7 diverse image domains including both text-centric and general scenes, 10 cognitive task types ranging from basic recognition to various forms of reasoning, and 6 common wearables-specific image quality issues. All questions are designed to be answerable using only the visual input and common senses. WearVQA is paired with a rigorous LLM-as-a-judge evaluation framework with 96% labeling accuracy. Open-source and proprietary multi-model LLMs achieved a QA accuracy as low as 24-52% on WearVQA, with substantial drops on lower-quality images and reasoning-heavy tasks. These observations position WearVQA as a comprehensive and challenging benchmark for guiding technical advancement towards robust, real-world multi-model wearables AI systems.
- Abstract(参考訳): スマートグラスのようなウェアラブルデバイス上でのマルチモデルAIアシスタントの視覚質問応答(VQA)機能を評価するために設計された最初のベンチマークであるWearVQAを紹介する。
高品質で第三者の画像に焦点を当てた以前のベンチマークとは異なり、WearVQAはエゴ中心のインタラクションのユニークな課題を反映している。
ベンチマークは、テキスト中心と一般的なシーンの両方を含む7つの多様な画像ドメイン、基本的な認識からさまざまな推論までの10の認知タスクタイプ、一般的なウェアラブル固有の画像品質問題を含む、2,520の精巧にキュレートされた画像検索用三脚からなる。
すべての質問は、視覚的な入力と常識のみを使用して答えられるように設計されている。
WearVQAは、厳格なLCM-as-a-judge評価フレームワークと96%のラベル精度でペアリングされている。
オープンソースでプロプライエタリなマルチモデルLPMは、WearVQAでは24-52%の精度でQAを達成し、低品質の画像や推論処理のタスクは大幅に削減された。
これらの観察は、WearVQAを、堅牢で実世界のマルチモデルウェアラブルAIシステムへの技術的進歩を導くための包括的で挑戦的なベンチマークとして位置付けている。
関連論文リスト
- Surveillance Facial Image Quality Assessment: A Multi-dimensional Dataset and Lightweight Model [59.39390911456143]
監視顔画像品質評価(SFIQA)に関する初の総合的研究を提案する。
SFIQA-Benchは、現実世界のシナリオで3つの広く配備された監視カメラによって撮影された5,004枚の監視顔画像で構成されている。
ノイズ、シャープネス、カラフルネス、コントラスト、忠実度、全体的な品質を含む6次元品質評価を主観的な実験により収集する。
論文 参考訳(メタデータ) (2026-02-07T06:51:03Z) - VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes [36.370533774426555]
2,720組の質問応答対からなる視覚的質問応答(VQA)ベンチマークであるVisualOverloadを提案する。
通常、地球近傍の画像理解に焦点を当てた以前のVQAデータセットとは異なり、VisualOverloadは、密集したシーンでシンプルで知識のない視覚タスクを実行するためにモデルに挑戦する。
37の試験モデルのうち最高のモデル(o3)でさえ、最も難しいテスト分割で19.6%、すべての質問で69.5%の精度しか達成できない。
論文 参考訳(メタデータ) (2025-09-29T18:00:25Z) - MVQA-68K: A Multi-dimensional and Causally-annotated Dataset with Quality Interpretability for Video Assessment [14.705190484805962]
ビデオ品質アセスメント(VQA)は、事前トレーニングで使用する大規模データセットから高品質なビデオを選択する上で、ますます重要になっている。
MVQA-68Kは68,000以上の注意深い注釈付きビデオからなる新しい多次元VQAデータセットである。
実験により、MVQA-68KはVQAタスクにおける様々な大規模言語モデル(MLLM)の性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-09-15T05:16:54Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - ESIQA: Perceptual Quality Assessment of Vision-Pro-based Egocentric Spatial Images [70.68629648595677]
エゴセントリックな画像やビデオは、立体視のXRコンテンツの魅力的な形態として現れつつある。
自我中心空間画像に対する画像品質評価(IQA)研究はいまだに欠落している。
本稿では,エゴセントリック空間画像品質評価データベース (ESQAD) を構築し,エゴセントリック空間画像を対象とした最初のIQAデータベースである。
論文 参考訳(メタデータ) (2024-07-31T06:20:21Z) - Visual Robustness Benchmark for Visual Question Answering (VQA) [0.08246494848934446]
213,000枚の画像からなる最初の大規模ベンチマークを提案する。
複数のVQAモデルの視覚的堅牢性に挑戦し、現実的な視覚的腐敗の強さを評価する。
論文 参考訳(メタデータ) (2024-07-03T08:35:03Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。