論文の概要: Event-guided Low-light Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2411.00639v1
- Date: Fri, 01 Nov 2024 14:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:13.474458
- Title: Event-guided Low-light Video Semantic Segmentation
- Title(参考訳): イベント誘導型低照度映像セマンティックセマンティックセグメンテーション
- Authors: Zhen Yao, Mooi Choo Chuah,
- Abstract要約: イベントカメラは、モーションダイナミクスをキャプチャし、時間依存情報をフィルタリングし、照明条件に対して堅牢である。
本稿では、イベントモダリティを利用した軽量なフレームワークであるEVSNetを提案し、統一照明不変表現の学習を指導する。
具体的には、動き抽出モジュールを利用して、事象のモーダルから短期・長期の時間的動きを抽出し、モーションフュージョンモジュールを用いて画像特徴と動き特徴を適応的に統合する。
- 参考スコア(独自算出の注目度): 6.938849566816958
- License:
- Abstract: Recent video semantic segmentation (VSS) methods have demonstrated promising results in well-lit environments. However, their performance significantly drops in low-light scenarios due to limited visibility and reduced contextual details. In addition, unfavorable low-light conditions make it harder to incorporate temporal consistency across video frames and thus, lead to video flickering effects. Compared with conventional cameras, event cameras can capture motion dynamics, filter out temporal-redundant information, and are robust to lighting conditions. To this end, we propose EVSNet, a lightweight framework that leverages event modality to guide the learning of a unified illumination-invariant representation. Specifically, we leverage a Motion Extraction Module to extract short-term and long-term temporal motions from event modality and a Motion Fusion Module to integrate image features and motion features adaptively. Furthermore, we use a Temporal Decoder to exploit video contexts and generate segmentation predictions. Such designs in EVSNet result in a lightweight architecture while achieving SOTA performance. Experimental results on 3 large-scale datasets demonstrate our proposed EVSNet outperforms SOTA methods with up to 11x higher parameter efficiency.
- Abstract(参考訳): 最近のビデオセマンティックセグメンテーション (VSS) 法は、明るい環境下で有望な結果を示している。
しかしながら、その性能は、可視性やコンテキストの詳細の削減により、低照度シナリオで著しく低下する。
さらに、望ましくない低照度条件により、ビデオフレーム間の時間的一貫性を組み込むことが難しくなり、ビデオのフリッカリング効果がもたらされる。
従来のカメラと比較して、イベントカメラは動きのダイナミクスを捉え、時間依存情報をフィルタリングし、照明条件に頑丈である。
この目的のために,イベントモダリティを活用した軽量なフレームワークであるEVSNetを提案し,統一照明不変表現の学習を指導する。
具体的には、動き抽出モジュールを利用して、事象のモーダルから短期・長期の時間的動きを抽出し、モーションフュージョンモジュールを用いて画像特徴と動き特徴を適応的に統合する。
さらに、テンポラルデコーダを用いて、ビデオコンテキストを活用し、セグメンテーション予測を生成する。
EVSNetにおけるこのような設計は、SOTA性能を達成しつつ軽量なアーキテクチャをもたらす。
3つの大規模データセットに対する実験結果から,提案したEVSNetは,最大11倍高いパラメータ効率でSOTA法より優れた性能を示した。
関連論文リスト
- Towards Real-world Event-guided Low-light Video Enhancement and Deblurring [39.942568142125126]
イベントカメラは、低照度環境における画質向上のための有望なソリューションとして登場した。
これらのタスクを効果的に処理するためのエンドツーエンドフレームワークを導入します。
我々のフレームワークは、イベントやフレームからの時間情報を効率的に活用するためのモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2024-08-27T09:44:54Z) - From Sim-to-Real: Toward General Event-based Low-light Frame Interpolation with Per-scene Optimization [29.197409507402465]
低照度条件に適したシーンごとの最適化手法を提案する。
その結果,低照度環境における最先端性能が示された。
論文 参考訳(メタデータ) (2024-06-12T11:15:59Z) - Motion Segmentation for Neuromorphic Aerial Surveillance [42.04157319642197]
イベントカメラは優れた時間分解能、優れたダイナミックレンジ、最小限の電力要件を提供する。
固定間隔で冗長な情報をキャプチャする従来のフレームベースのセンサーとは異なり、イベントカメラは画素レベルの明るさ変化を非同期に記録する。
本稿では,イベントデータと光フロー情報の両方に自己監督型視覚変換器を利用する動き分割手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:36:13Z) - Event-assisted Low-Light Video Object Segmentation [47.28027938310957]
イベントカメラは、このような低照度条件下でオブジェクトの可視性を高め、VOSメソッドを支援することを約束する。
本稿では、イベントカメラデータを利用してセグメンテーション精度を向上させる、低照度VOSに適した先駆的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T13:41:22Z) - EGVD: Event-Guided Video Deraining [57.59935209162314]
本稿では,ビデオデライニングのためのイベントカメラの可能性を解放するエンド・ツー・エンドの学習ネットワークを提案する。
雨の多いビデオと時間的に同期されたイベントストリームからなる現実世界のデータセットを構築します。
論文 参考訳(メタデータ) (2023-09-29T13:47:53Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation [29.00635219317848]
本稿では,エンドツーエンドで学習可能なNoisy-LSTMという新しいモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。