論文の概要: SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses
- arxiv url: http://arxiv.org/abs/2602.22683v1
- Date: Thu, 26 Feb 2026 06:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.565555
- Title: SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses
- Title(参考訳): SuperPERGLASSES:AIスマートグラスのインテリジェントエージェントとしてのビジョン言語モデルのベンチマーク
- Authors: Zhuohang Jiang, Xu Yuan, Haohao Qu, Shanru Lin, Kanglong Liu, Wenqi Fan, Qing Li,
- Abstract要約: SuPERGLASSESは、スマートグラスデバイスによって収集された実世界のデータに基づいて構築された、初めての総合的なビジュアル質問回答ベンチマークである。
我々のエージェントは、GPT-4oを2.19パーセント上回る最先端性能を実現し、スマートグラスVQAシナリオにおけるタスク固有のソリューションの必要性を強調した。
- 参考スコア(独自算出の注目度): 22.22405739343465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of AI-powered smart glasses, one of the hottest wearable devices, has unlocked new frontiers for multimodal interaction, with Visual Question Answering (VQA) over external knowledge sources emerging as a core application. Existing Vision Language Models (VLMs) adapted to smart glasses are typically trained and evaluated on traditional multimodal datasets; however, these datasets lack the variety and realism needed to reflect smart glasses usage scenarios and diverge from their specific challenges, where accurately identifying the object of interest must precede any external knowledge retrieval. To bridge this gap, we introduce SUPERGLASSES, the first comprehensive VQA benchmark built on real-world data entirely collected by smart glasses devices. SUPERGLASSES comprises 2,422 egocentric image-question pairs spanning 14 image domains and 8 query categories, enriched with full search trajectories and reasoning annotations. We evaluate 26 representative VLMs on this benchmark, revealing significant performance gaps. To address the limitations of existing models, we further propose SUPERLENS, a multimodal smart glasses agent that enables retrieval-augmented answer generation by integrating automatic object detection, query decoupling, and multimodal web search. Our agent achieves state-of-the-art performance, surpassing GPT-4o by 2.19 percent, and highlights the need for task-specific solutions in smart glasses VQA scenarios.
- Abstract(参考訳): 最もホットなウェアラブルデバイスの1つであるAIを使ったスマートグラスの急速な進歩は、マルチモーダルインタラクションのための新たなフロンティアを開放し、コアアプリケーションとして出現する外部知識ソースに対するビジュアル質問回答(VQA)が導入された。
スマートグラスに適応した既存のビジョン言語モデル(VLM)は、通常、従来のマルチモーダルデータセットでトレーニングされ、評価されるが、これらのデータセットには、スマートグラスの使用シナリオを反映し、特定の課題から逸脱するために必要な多様性と現実性がない。
このギャップを埋めるために、私たちは、スマートグラスデバイスで完全に収集された実世界のデータに基づいて構築された初の総合的なVQAベンチマークであるSUPERGLASSESを紹介します。
SUPERGLASSESは、14のイメージドメインと8のクエリカテゴリにまたがる2,422のエゴセントリックな画像検索ペアで構成され、完全な検索軌跡と推論アノテーションが備わっている。
このベンチマークで26の代表的なVLMを評価し、大きな性能差を明らかにした。
既存モデルの限界に対処するために,自動オブジェクト検出,クエリデカップリング,マルチモーダルWeb検索を統合することで,検索強化された回答生成を可能にするマルチモーダルスマートグラスエージェントSUPERLENSを提案する。
我々のエージェントは、GPT-4oを2.19パーセント上回る最先端性能を実現し、スマートグラスVQAシナリオにおけるタスク固有のソリューションの必要性を強調した。
関連論文リスト
- SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning [57.083359974905655]
SenseNova-MARSは、Multimodal Agentic Reasoning and Searchフレームワークである。
画像検索、テキスト検索、画像収穫ツールを動的に統合し、知識集約型視覚理解の課題に対処する。
SenseNova-MARSは、オープンソースの検索ときめ細かい画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-30T16:31:45Z) - WearVQA: A Visual Question Answering Benchmark for Wearables in Egocentric Authentic Real-world scenarios [19.156760664417718]
我々は、スマートグラスのようなウェアラブルデバイス上で、マルチモデルAIアシスタントの視覚質問回答機能を評価するために設計された最初のベンチマークであるWearVQAを紹介する。
WearVQAは、エゴ中心のインタラクションのユニークな課題を反映している。
ベンチマークは、2,520個の精巧にキュレートされた画像検索用三つ子で構成され、7つの異なる画像ドメインにまたがる。
論文 参考訳(メタデータ) (2025-11-27T06:44:49Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。
このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。
本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文 参考訳(メタデータ) (2025-08-07T18:03:50Z) - OWLViz: An Open-World Benchmark for Visual Question Answering [15.58794343303552]
本稿では, Open WorLd VISual Question answering (OWLViz) タスクに対する挑戦的なベンチマークを示す。
我々は、最先端のVLMでさえ、最高のモデルであるGemini 2.0と競合し、26.6%の精度しか達成していないことを示した。
このパフォーマンスギャップは、適切なツールを選択するマルチモーダルシステムの能力に重大な制限が生じる。
論文 参考訳(メタデータ) (2025-03-04T19:37:33Z) - Multi-modal Queried Object Detection in the Wild [72.16067634379226]
MQ-Detは、現実世界のオブジェクト検出のための効率的なアーキテクチャと事前学習戦略設計である。
既存の言語クエリのみの検出器に視覚クエリを組み込む。
MQ-Detのシンプルで効果的なアーキテクチャとトレーニング戦略設計は、ほとんどの言語でクエリされたオブジェクト検出器と互換性がある。
論文 参考訳(メタデータ) (2023-05-30T12:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。