論文の概要: Matching Neuromorphic Events and Color Images via Adversarial Learning
- arxiv url: http://arxiv.org/abs/2003.00636v1
- Date: Mon, 2 Mar 2020 02:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:58:50.080674
- Title: Matching Neuromorphic Events and Color Images via Adversarial Learning
- Title(参考訳): 逆学習によるニューロモルフィック事象とカラー画像のマッチング
- Authors: Fang Xu, Shijie Lin, Wen Yang, Lei Yu, Dengxin Dai, Gui-song Xia
- Abstract要約: 本稿では,イベントベース画像検索(EBIR)問題を提案する。
ニューロモルフィックイベント・カラー画像特徴学習(ECFL)によるEBIR問題に対処する。
また,EBIR問題の発展を促進するため,コミュニティN-UKbenchとEC180データセットにも貢献する。
- 参考スコア(独自算出の注目度): 49.447580124957966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The event camera has appealing properties: high dynamic range, low latency,
low power consumption and low memory usage, and thus provides complementariness
to conventional frame-based cameras. It only captures the dynamics of a scene
and is able to capture almost "continuous" motion. However, different from
frame-based camera that reflects the whole appearance as scenes are, the event
camera casts away the detailed characteristics of objects, such as texture and
color. To take advantages of both modalities, the event camera and frame-based
camera are combined together for various machine vision tasks. Then the
cross-modal matching between neuromorphic events and color images plays a vital
and essential role. In this paper, we propose the Event-Based Image Retrieval
(EBIR) problem to exploit the cross-modal matching task. Given an event stream
depicting a particular object as query, the aim is to retrieve color images
containing the same object. This problem is challenging because there exists a
large modality gap between neuromorphic events and color images. We address the
EBIR problem by proposing neuromorphic Events-Color image Feature Learning
(ECFL). Particularly, the adversarial learning is employed to jointly model
neuromorphic events and color images into a common embedding space. We also
contribute to the community N-UKbench and EC180 dataset to promote the
development of EBIR problem. Extensive experiments on our datasets show that
the proposed method is superior in learning effective modality-invariant
representation to link two different modalities.
- Abstract(参考訳): イベントカメラは、高ダイナミックレンジ、低レイテンシ、低消費電力、低メモリ使用率など、従来のフレームベースのカメラと相補的な特性を有する。
シーンのダイナミックスのみをキャプチャし、ほぼ「連続的な」動きをキャプチャできる。
しかし、シーン全体の外観を反映したフレームベースのカメラとは違い、イベントカメラはテクスチャや色などの詳細な特徴を排除している。
両方のモダリティの利点を活かすため、各種のマシンビジョンタスクにイベントカメラとフレームベースのカメラを組み合わせる。
次に、ニューロモルフィック事象とカラー画像の相互マッチングが不可欠かつ重要な役割を果たす。
本稿では,クロスモーダルマッチングタスクを活用すべく,イベントベース画像検索(ebir)問題を提案する。
クエリとして特定のオブジェクトを表すイベントストリームが与えられると、目的は同じオブジェクトを含むカラーイメージを取得することである。
この問題は、ニューロモルフィック事象とカラー画像の間に大きなモダリティギャップが存在するため、難しい。
我々は,神経形態的イベントカラー画像特徴学習(ecfl)を提案することで,ebir問題に対処する。
特に、対立学習を用いて、ニューロモルフィック事象とカラーイメージを共通の埋め込み空間に共同でモデル化する。
また,EBIR問題の発展を促進するため,コミュニティN-UKbenchとEC180データセットにも貢献する。
提案手法は,2つの異なるモダリティをリンクする効果的なモダリティ不変表現の学習に優れていることを示す。
関連論文リスト
- EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Neuromorphic Imaging and Classification with Graph Learning [11.882239213276392]
バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。
多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。
イベントデータの新しいグラフ表現を提案し,それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。
論文 参考訳(メタデータ) (2023-09-27T12:58:18Z) - Deformable Neural Radiance Fields using RGB and Event Cameras [65.40527279809474]
我々は,RGBとイベントカメラを用いた変形可能なニューラル放射場をモデル化する新しい手法を開発した。
提案手法は,イベントの非同期ストリームと疎RGBフレームを用いる。
現実的にレンダリングされたグラフィックと実世界のデータセットの両方で実施された実験は、提案手法の有益性を実証している。
論文 参考訳(メタデータ) (2023-09-15T14:19:36Z) - Event-based Image Deblurring with Dynamic Motion Awareness [10.81953574179206]
露光時間における実RGBのぼかし画像と関連する事象のペアを含む最初のデータセットを紹介する。
以上の結果より,PSNRは合成データで1.57dB,実イベントデータで1.08dBまで改善された。
論文 参考訳(メタデータ) (2022-08-24T09:39:55Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。