論文の概要: EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark
- arxiv url: http://arxiv.org/abs/2510.06218v1
- Date: Tue, 07 Oct 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.419082
- Title: EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark
- Title(参考訳): EgoNight: カオスベンチマークによる夜のエゴセントリックなビジョン理解を目指す
- Authors: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel,
- Abstract要約: EgoNightは、夜間のエゴセントリックなビジョンのための、初めての総合的なベンチマークだ。
夜のアライメントビデオは、夜のアノテーションの質を高めます。
EgoNight-VQAには90本のビデオに3658のQAペアがあり、12種類のQAタイプにまたがっている。
- 参考スコア(独自算出の注目度): 108.87311276892491
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.
- Abstract(参考訳): エゴセントリックな視覚理解のための既存のベンチマークのほとんどは、現実のアプリケーションでは避けられない低照度条件を見渡すことで、主に昼間のシナリオに焦点を当てています。
このギャップを調査するために、夜間の自我中心視のための最初の総合的なベンチマークであるEgoNightを紹介し、視覚的質問応答(VQA)を中核課題とする。
EgoNightの重要な特徴は、昼夜のアライメントビデオの導入である。
これを実現するために,Blender と実世界の録音による合成ビデオの両方を収集し,シーンとアクションが視覚的かつ時間的に一致していることを確認する。
これらのペアビデオを活用することで、新しい夜間自動ラベルエンジンによってサポートされたEgoNight-VQAを構築し、広範囲な人間の検証を通じて改善する。
各QAペアは、信頼性のためにアノテータによってダブルチェックされる。
合計で、EgoNight-VQAは90本のビデオに3658のQAペアがあり、12種類のQAタイプにまたがっている。
現状のマルチモーダル大言語モデル(MLLM)の評価は、昼間から夜間の移動において顕著な性能低下を示し、低照度条件下での推論の課題を浮き彫りにしている。
VQA以外にも、EgoNightでは、昼夜対応検索と夜間の自我中心深度推定という2つの補助的なタスクを導入し、既存のモデルの境界をさらに探究している。
私たちは、EgoNight-VQAが、アプリケーション駆動のエゴセントリックなビジョン研究を推進し、照明領域をまたいだ一般化モデルを開発するための強力な基盤を提供すると信じています。
すべてのデータとコードは、受け入れ次第利用可能になります。
関連論文リスト
- Seeing in the Dark: Benchmarking Egocentric 3D Vision with the Oxford Day-and-Night Dataset [20.470784087903514]
オックスフォード・デイ・アンド・ナイト(Oxford Day-and-Night)は、新しいビュー合成(NVS)と、困難な照明条件下での視覚的再局在のための大規模でエゴセントリックなデータセットである。
NVSと再ローカライゼーションという2つのコアベンチマークをサポートし、現実的で多様な環境でモデルを評価するためのユニークなプラットフォームを提供する。
論文 参考訳(メタデータ) (2025-06-04T17:59:02Z) - Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。
本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。
EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文 参考訳(メタデータ) (2025-03-17T18:50:36Z) - EgoBlind: Towards Egocentric Visual Assistance for the Blind [69.6161191190939]
EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットである。
視覚障害者の日常生活を1対1の視点で記録するビデオは1,392本ある。
また、視覚補助のために、視覚障害者が直接提示または生成した5,311の質問も入っている。
論文 参考訳(メタデータ) (2025-03-11T09:40:31Z) - ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
自己中心型空間ビデオのクオリティ・オブ・エクスペリエンス(QoE)を評価することは、高品質な視聴体験を確保するために不可欠である。
我々は,600個のエゴセントリックな空間ビデオからなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介した。
また,両眼の空間,運動,意味的特徴を統合し,全体的な知覚品質を予測する多次元両眼機能融合モデルであるESVQAnetを提案する。
論文 参考訳(メタデータ) (2024-12-29T10:13:30Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs for Video QA [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
Ego4Dでは,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを自動生成する。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。