論文の概要: RE-VLM: Event-Augmented Vision-Language Model for Scene Understanding
- arxiv url: http://arxiv.org/abs/2605.19329v1
- Date: Tue, 19 May 2026 04:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.113938
- Title: RE-VLM: Event-Augmented Vision-Language Model for Scene Understanding
- Title(参考訳): RE-VLM:シーン理解のためのイベント拡張ビジョンランゲージモデル
- Authors: Hanqing Liu, Mingjie Liu, Luoping Cui, Endian Lin, Donghong Jiang, Chuang Zhu,
- Abstract要約: 本稿では,RGB画像とイベントストリームを併用した視覚言語モデルRE-VLMを提案する。
照度チャリングされたシーンをターゲットとしたPEOD-Chatと、さまざまなシナリオをカバーするRGBE-Chatの2つのデータセットを構築した。
キャプションとVQAのベンチマークでは、RE-VLMは最先端のRGBとイベントのみのモデルより一貫して優れている。
- 参考スコア(独自算出の注目度): 8.729091944523494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional vision-language models (VLMs) struggle to interpret scenes captured under adverse conditions (e.g., low light, high dynamic range, or fast motion) because standard RGB images degrade in such environments. Event cameras provide a complementary modality: they asynchronously record per-pixel brightness changes with high temporal resolution and wide dynamic range, preserving motion cues where frames fail. We propose RE-VLM, the first dual-stream vision-language model that jointly leverages RGB images and event streams for robust scene understanding across both normal and challenging conditions. RE-VLM employs parallel RGB and event encoders together with a progressive training strategy that aligns heterogeneous visual features with language. To address the scarcity of RGB-Event-Text supervision, we further propose a graph-driven pipeline that converts synchronized RGB-Event streams into verifiable scene graphs, from which we synthesize captions and question-answer (QA) pairs. To develop and evaluate RE-VLM, we construct two datasets: PEOD-Chat, targeting illumination-challenged scenes, and RGBE-Chat, covering diverse scenarios. On captioning and VQA benchmarks, RE-VLM consistently outperforms state-of-the-art RGB-only and event-only models with comparable parameter counts, with particularly large gains under challenging conditions. These results demonstrate the effectiveness of event-augmented VLMs in achieving robust vision-language understanding across a wide range of real-world environments. Code and datasets are available at https://github.com/bupt-ai-cz/RE-VLM.
- Abstract(参考訳): 従来の視覚言語モデル(VLM)は、標準的なRGB画像がそのような環境で劣化するため、悪条件(例えば、低照度、高ダイナミックレンジ、高速モーション)下で撮影されたシーンを解釈するのに苦労する。
イベントカメラは、時間分解能が高く、ダイナミックレンジの広い画素ごとの明るさ変化を非同期に記録し、フレームが失敗するモーションキューを保存する。
本稿では、RGB画像とイベントストリームを併用して、通常条件と難易度の両方で堅牢なシーン理解を実現する、初のデュアルストリームビジョン言語モデルRE-VLMを提案する。
RE-VLMは並列RGBとイベントエンコーダを採用し、異種視覚特徴と言語を整合させるプログレッシブトレーニング戦略を採用している。
さらに,RGB-Event-Text監視の欠如に対処するため,同期したRGB-Eventストリームを検証可能なシーングラフに変換するグラフ駆動パイプラインを提案し,キャプションと質問応答(QA)ペアを合成する。
RE-VLMの開発と評価のために,照明に照らされたシーンを対象とするPEOD-Chatと,多様なシナリオをカバーするRGBE-Chatという2つのデータセットを構築した。
キャプションとVQAのベンチマークでは、RE-VLMは最先端のRGBのみのモデルと、同等のパラメータ数を持つイベントのみのモデルを一貫して上回っている。
これらの結果は、様々な現実世界環境において、堅牢な視覚言語理解を実現するためのイベント拡張VLMの有効性を示すものである。
コードとデータセットはhttps://github.com/bupt-ai-cz/RE-VLMで公開されている。
関連論文リスト
- Spatio-Temporal Difference Guided Motion Deblurring with the Complementary Vision Sensor [12.418360718687026]
動きのぼかしは露光期間中に急激なシーン変化が起こると発生し、リッチな露光中の動きを1つのRGBフレームに崩壊させる。
本稿では,RGB入力のぼやけた構造や色の詳細を復元するために,時空間差ガイドデブロアネット(STGDNet)を提案する。
提案手法は,合成CVSデータセットと実世界評価の両方において,現在のRGBやイベントベースのアプローチよりも優れている。
論文 参考訳(メタデータ) (2026-04-12T09:54:14Z) - Learning to See through Illumination Extremes with Event Streaming in Multimodal Large Language Models [26.703204607483404]
Event-MLLMは、RGBフレームで動的にイベントストリームを融合することで、全光視覚推論を実行するイベント強化モデルである。
MLLMの最初のマルチイルミネーションイベントインストラクションコーパスを2,241個のイベントRGBサンプルでキュレートする。
実験によると、Event-MLLMは汎用性、照明適応性、イベントのみのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-29T07:46:32Z) - EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - IE2Video: Adapting Pretrained Diffusion Models for Event-Based Video Reconstruction [4.452083769109418]
イベントカメラは、低消費電力でスパースでモーション駆動のセンシングを提供する。
本稿では、連続イベントストリームと並行してスパースRGBシーケンスを記録するハイブリッドキャプチャパラダイムを提案する。
フルRGBビデオをオフラインで再構築します -- ダウンストリームアプリケーションの捕捉電力消費量を削減します。
論文 参考訳(メタデータ) (2025-12-04T20:37:45Z) - DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis [11.976362049118782]
このレターではマルチモーダルシーン理解のためのフレームワークであるDepthVisionを紹介します。
条件付き生成逆数ネットワーク(GAN)を用いて、疎LiDAR点雲からRGB画像を合成する。
これらの合成ビューは、Luminance-Aware Modality Adaptation (LAMA)を用いて実際のRGBデータと結合される。
論文 参考訳(メタデータ) (2025-09-09T07:42:07Z) - Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms [58.60058450730943]
現在の手話翻訳アルゴリズムは主にRGBフレームに依存しており、これは固定フレームレート、可変照明条件、手の動きによる動きのぼけによって制限される。
以上の課題に対処するため,イベントストリームを活用して,RGBカメラによるジェスチャーデータのキャプチャを支援することを提案する。
具体的には,15,676個のRGB-Eventサンプルと15,191個のグルースと2,568個の漢字を含むDVS346カメラを用いて,大規模なRGB-Event手話翻訳データセットを収集する。
論文 参考訳(メタデータ) (2025-03-09T06:55:46Z) - Dynamic EventNeRF: Reconstructing General Dynamic Scenes from Multi-view RGB and Event Streams [69.65147723239153]
動的シーンのボリューム再構成はコンピュータビジョンにおいて重要な問題である。
照明が悪く、動きが速い場合には特に困難である。
本稿では,スパースなマルチビューイベントストリームとスパースなRGBフレームからシーンを時間的に再構築する手法を提案する。
論文 参考訳(メタデータ) (2024-12-09T18:56:18Z) - EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。