論文の概要: EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion
- arxiv url: http://arxiv.org/abs/2312.16933v1
- Date: Thu, 28 Dec 2023 10:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:27:35.817017
- Title: EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion
- Title(参考訳): evplug: イベントとイメージ融合のためのプラグアンドプレイモジュールを学習する
- Authors: Jianping Jiang, Xinyu Zhou, Peiqi Duan, Boxin Shi
- Abstract要約: EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
- 参考スコア(独自算出の注目度): 55.367269556557645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras and RGB cameras exhibit complementary characteristics in
imaging: the former possesses high dynamic range (HDR) and high temporal
resolution, while the latter provides rich texture and color information. This
makes the integration of event cameras into middle- and high-level RGB-based
vision tasks highly promising. However, challenges arise in multi-modal fusion,
data annotation, and model architecture design. In this paper, we propose
EvPlug, which learns a plug-and-play event and image fusion module from the
supervision of the existing RGB-based model. The learned fusion module
integrates event streams with image features in the form of a plug-in, endowing
the RGB-based model to be robust to HDR and fast motion scenes while enabling
high temporal resolution inference. Our method only requires unlabeled
event-image pairs (no pixel-wise alignment required) and does not alter the
structure or weights of the RGB-based model. We demonstrate the superiority of
EvPlug in several vision tasks such as object detection, semantic segmentation,
and 3D hand pose estimation
- Abstract(参考訳): イベントカメラとrgbカメラは、高ダイナミックレンジ(hdr)と高時間分解能を持ち、後者は豊かなテクスチャとカラー情報を提供する。
これにより、イベントカメラを中高レベルのRGBベースのビジョンタスクに統合することが可能になる。
しかし、マルチモーダル融合、データアノテーション、モデルアーキテクチャ設計において課題が発生する。
本稿では,既存のrgbベースモデルの監督から,プラグイン・アンド・プレイイベントとイメージ融合モジュールを学習するevplugを提案する。
学習した融合モジュールは、イベントストリームとプラグインの形式での画像特徴を統合し、高時間分解能推論を可能にしながら、RGBベースのモデルがHDRおよび高速モーションシーンに対して堅牢であるようにする。
本手法では,ラベルなしのイベント画像対(画素単位のアライメントを必要とせず)のみが必要であり,rgbモデルの構造や重みは変更しない。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおけるEvPlugの優位性を示す。
関連論文リスト
- LapGSR: Laplacian Reconstructive Network for Guided Thermal Super-Resolution [1.747623282473278]
複数のモダリティを融合して高解像度の画像を生成するには、数百万のパラメータと重い計算負荷を持つ高密度モデルが必要となることが多い。
熱分解能誘導のためのラプラシア像ピラミッドを用いたマルチモーダル・軽量・生成モデルであるLapGSRを提案する。
論文 参考訳(メタデータ) (2024-11-12T12:23:19Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction [51.87279764576998]
EvRGBHand - イベントカメラとRGBカメラによる3Dハンドメッシュ再構築のための最初のアプローチを提案する。
EvRGBHandは、RGBベースのHMRにおける露出とモーションのぼかしの問題と、イベントベースのHMRにおける前景の不足とバックグラウンドのオーバーフロー問題に対処することができる。
論文 参考訳(メタデータ) (2024-03-12T06:04:50Z) - FusionVision: A comprehensive approach of 3D object reconstruction and segmentation from RGB-D cameras using YOLO and fast segment anything [1.5728609542259502]
本稿では,RGB-D画像におけるオブジェクトの堅牢な3次元セグメンテーションに適応した,徹底的なパイプラインであるFusionVisionを紹介する。
提案したFusionVisionパイプラインでは、RGBイメージ領域内のオブジェクトの識別にYOLOを使用している。
これらのコンポーネント間の相乗効果と3次元シーン理解への統合により、オブジェクトの検出とセグメンテーションの密接な融合が保証される。
論文 参考訳(メタデータ) (2024-02-29T22:59:27Z) - CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event
Cameras [43.699819213559515]
既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集される。
我々は、特別に構築されたデータ取得システムを用いて収集された、最初の不整合フレームイベントデータセットCRSOTを構築した。
ゆるやかなRGBイベントデータを用いても、ロバストなトラッキングを実現することのできる、新しい非整列オブジェクト追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T14:20:22Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Matching Neuromorphic Events and Color Images via Adversarial Learning [49.447580124957966]
本稿では,イベントベース画像検索(EBIR)問題を提案する。
ニューロモルフィックイベント・カラー画像特徴学習(ECFL)によるEBIR問題に対処する。
また,EBIR問題の発展を促進するため,コミュニティN-UKbenchとEC180データセットにも貢献する。
論文 参考訳(メタデータ) (2020-03-02T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。