論文の概要: Learning to See through Illumination Extremes with Event Streaming in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.27558v1
- Date: Sun, 29 Mar 2026 07:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.027019
- Title: Learning to See through Illumination Extremes with Event Streaming in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおけるイベントストリーミングによる照度エクストリームの学習
- Authors: Baoheng Zhang, Jiahui Liu, Gui Zhao, Weizhou Zhang, Yixuan Ma, Jun Jiang, Yingxian Chen, Wilton W. T. Fok, Xiaojuan Qi, Hayden Kwok-Hay So,
- Abstract要約: Event-MLLMは、RGBフレームで動的にイベントストリームを融合することで、全光視覚推論を実行するイベント強化モデルである。
MLLMの最初のマルチイルミネーションイベントインストラクションコーパスを2,241個のイベントRGBサンプルでキュレートする。
実験によると、Event-MLLMは汎用性、照明適応性、イベントのみのベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 26.703204607483404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) perform strong vision-language reasoning under standard conditions but fail in extreme illumination, where RGB inputs lose irrevocable structure and semantics. We propose Event-MLLM, an event-enhanced model that performs all-light visual reasoning by dynamically fusing event streams with RGB frames. Two key components drive our approach: an Illumination Indicator - a learnable signal derived from a DINOv2 branch that represents exposure degradation and adaptively modulates event-RGB fusion - and an Illumination Correction Loss that aligns fused features with non-degraded (normal-light) semantics in the latent space, compensating for information lost in extreme lighting. We curate the first multi-illumination event-instruction corpus for MLLMs, with 2,241 event-RGB samples (around 6 QA pairs each) across diverse scenes and 17 brightness rates (0.05x - 20x), plus an instruct-following benchmark for reasoning, counting, and fine-grained recognition under extreme lighting. Experiments show that Event-MLLM markedly outperforms general-purpose, illumination-adaptive, and event-only baselines, setting a new state of the art in robust multimodal perception and reasoning under challenging illumination.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、標準条件下では強い視覚言語推論を行うが、RGB入力が取り消せない構造や意味論を失う極端な照明で失敗する。
イベントストリームをRGBフレームで動的に融合させることにより、全光視覚推論を行うイベント拡張モデルであるEvent-MLLMを提案する。
Illumination Indicator - 露光劣化を表現し、イベント-RGB融合を適応的に変調するDINOv2ブランチから派生した学習可能な信号 - と、非劣化(通常の光)セマンティクスと融合するイルミネーション補正損失。
MLLMのための最初のマルチイルミネーションイベントインストラクションコーパスをキュレートし,2,241個のイベントRGBサンプル(それぞれ6QAペア)と17個の輝度レート(0.05x~20x)と,極端照明下での推論,カウント,微粒化認識のためのインストラクションフォローベンチマークを作成した。
実験により、Event-MLLMは汎用性、照明適応性、およびイベントのみのベースラインを著しく上回り、頑健なマルチモーダルな認識と、難解な照明下での推論において、新しい最先端技術を確立した。
関連論文リスト
- Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors [13.688097246812042]
低照度画像は、しばしば低コントラスト、ノイズ、色歪みに悩まされ、視覚的品質を低下させ、下流の視覚タスクを損なう。
SCEM(Structured Control Embedding Module)を組み込んだ低照度画像強調のための新しい条件拡散フレームワークを提案する。
SCEMは低照度画像を4つの情報成分に分解する。
論文 参考訳(メタデータ) (2026-02-27T22:15:27Z) - DIME-Net: A Dual-Illumination Adaptive Enhancement Network Based on Retinex and Mixture-of-Experts [7.6894262288762665]
本稿では,DIME-Netと呼ばれるデュアルイルミネーション向上フレームワークを提案する。
Retinex理論を統合することで、このモジュールは低照度画像とバックライト画像の両方に合わせた拡張を効果的に実行する。
DIME-Netは, 実世界の低照度データセットとバックライトデータセットの両方において, 再トレーニングを伴わずに, 競合性能を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-19T15:17:47Z) - SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement [58.79901582809091]
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
正確な照明復元を可能にする空間適応照明誘導変圧器フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:38:56Z) - Light of Normals: Unified Feature Representation for Universal Photometric Stereo [69.95514862547174]
現在のエンコーダは、照明と通常の情報が切り離されていることを保証できない。
i) 点、方向、環境光を集約する光アライメント監督機能を備えた光レジスタトークン。
また,PS-Verseも導入した。PS-Verseは,幾何学的複雑性と照明の多様性を指標とした大規模合成データセットである。
論文 参考訳(メタデータ) (2025-06-23T17:53:11Z) - Event-Driven Dynamic Scene Depth Completion [50.01494043834177]
EventDCは、最初のイベント駆動のディープコンプリートフレームワークである。
Event-Modulated Alignment (EMA) と Local Depth Filtering (LDF) の2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-05-19T16:02:37Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - Diving into Darkness: A Dual-Modulated Framework for High-Fidelity
Super-Resolution in Ultra-Dark Environments [51.58771256128329]
本稿では,低照度超解像課題の性質を深く理解しようとする,特殊二変調学習フレームワークを提案する。
Illuminance-Semantic Dual Modulation (ISDM) コンポーネントを開発した。
包括的実験は、我々のアプローチが多様で挑戦的な超低照度条件に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-09-11T06:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。