論文の概要: DarkEQA: Benchmarking Vision-Language Models for Embodied Question Answering in Low-Light Indoor Environments
- arxiv url: http://arxiv.org/abs/2512.24985v2
- Date: Tue, 06 Jan 2026 05:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 13:14:29.360864
- Title: DarkEQA: Benchmarking Vision-Language Models for Embodied Question Answering in Low-Light Indoor Environments
- Title(参考訳): DarkEQA:低照度屋内環境における身体的質問応答のためのビジョンランゲージモデルのベンチマーク
- Authors: Yohan Park, Hyunwoo Ha, Wonjun Jo, Tae-Hyun Oh,
- Abstract要約: 視覚言語モデル(VLM)は、エンボディエージェントの中央推論モジュールとしてますます採用されている。
既存のベンチマークでは、その能力は理想的かつよく照らされた条件下で評価されているが、堅牢な24/7操作では、広範囲の視覚的劣化によるパフォーマンスが要求される。
In this present DarkEQA, a open-source benchmark for a EQA-relevant primitives under multi-level low-light conditions。
- 参考スコア(独自算出の注目度): 24.527536145236894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) are increasingly adopted as central reasoning modules for embodied agents. Existing benchmarks evaluate their capabilities under ideal, well-lit conditions, yet robust 24/7 operation demands performance under a wide range of visual degradations, including low-light conditions at night or in dark environments--a core necessity that has been largely overlooked. To address this underexplored challenge, we present DarkEQA, an open-source benchmark for evaluating EQA-relevant perceptual primitives under multi-level low-light conditions. DarkEQA isolates the perception bottleneck by evaluating question answering from egocentric observations under controlled degradations, enabling attributable robustness analysis. A key design feature of DarkEQA is its physical fidelity: visual degradations are modeled in linear RAW space, simulating physics-based illumination drop and sensor noise followed by an ISP-inspired rendering pipeline. We demonstrate the utility of DarkEQA by evaluating a wide range of state-of-the-art VLMs and Low-Light Image Enhancement (LLIE) models. Our analysis systematically reveals VLMs' limitations when operating under these challenging visual conditions. Project website: https://darkeqa-benchmark.github.io/
- Abstract(参考訳): 視覚言語モデル(VLM)は、エンボディエージェントの中央推論モジュールとしてますます採用されている。
既存のベンチマークでは、その能力は理想的な明るい条件下で評価されているが、24/7の堅牢な運用では、夜間や暗い環境での低照度条件など、幅広い視覚的劣化によるパフォーマンスが要求される。
この未解明の課題に対処するため,マルチレベル低照度条件下でのEQA関連知覚的プリミティブを評価するためのオープンソースのベンチマークであるDarkEQAを提案する。
DarkEQAは、制御された劣化下での自我中心の観察から質問応答を評価することで知覚ボトルネックを分離し、帰属的堅牢性分析を可能にする。
視覚的劣化は線形RAW空間でモデル化され、物理ベースの照明ドロップとセンサーノイズをシミュレートし、ISPにインスパイアされたレンダリングパイプラインが続く。
我々はDarkEQAの実用性を,多種多様な最先端VLMと低照度画像強調(LLIE)モデルで評価することによって実証する。
本稿では,これらの難解な視覚条件下での動作におけるVLMの限界を系統的に明らかにする。
プロジェクトサイト:https://darkeqa-benchmark.github.io/
関連論文リスト
- Zero-Reference Joint Low-Light Enhancement and Deblurring via Visual Autoregressive Modeling with VLM-Derived Modulation [18.67176370944511]
現実の暗黒画像は、視界とコントラストの低いだけでなく、複雑なノイズやぼやけも示しており、重要な修復上の課題を呈している。
視覚言語モデル(VLM)を用いた視覚自己回帰モデル(VAR)に基づく生成フレームワークを提案する。
我々のフレームワークは完全に教師なしであり、ベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-23T19:08:45Z) - NovisVQ: A Streaming Convolutional Neural Network for No-Reference Opinion-Unaware Frame Quality Assessment [39.76658525158528]
コンピュータビジョンタスクにはビデオ品質評価(VQA)が不可欠だが、既存のアプローチには大きな制約がある。
我々は、参照も意見も意識しないスケーラブルでストリーミングベースのVQAモデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T18:23:55Z) - Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。
制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T22:31:21Z) - EyeSim-VQA: A Free-Energy-Guided Eye Simulation Framework for Video Quality Assessment [68.77813885751308]
EyeSimVQAは、自由エネルギーベースの自己修復を取り入れた新しいVQAフレームワークである。
現状の手法と比較して,EyeSimVQAは競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-06-13T08:00:54Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [70.44416154144001]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Dusk Till Dawn: Self-supervised Nighttime Stereo Depth Estimation using Visual Foundation Models [16.792458193160407]
自己教師付き深さ推定アルゴリズムはフレームウォーピング関係に大きく依存する。
夜間に焦点をあてた自己教師型ステレオ深度推定を行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-18T03:07:23Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。