論文の概要: Superevents: Towards Native Semantic Segmentation for Event-based
Cameras
- arxiv url: http://arxiv.org/abs/2105.06091v1
- Date: Thu, 13 May 2021 05:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 23:27:14.463791
- Title: Superevents: Towards Native Semantic Segmentation for Event-based
Cameras
- Title(参考訳): superevents: イベントベースのカメラのネイティブセマンティクスセグメンテーションに向けて
- Authors: Weng Fei Low, Ankit Sonthalia, Zhi Gao, Andr\'e van Schaik, Bharath
Ramesh
- Abstract要約: 最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.099264910430986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most successful computer vision models transform low-level features, such as
Gabor filter responses, into richer representations of intermediate or
mid-level complexity for downstream visual tasks. These mid-level
representations have not been explored for event cameras, although it is
especially relevant to the visually sparse and often disjoint spatial
information in the event stream. By making use of locally consistent
intermediate representations, termed as superevents, numerous visual tasks
ranging from semantic segmentation, visual tracking, depth estimation shall
benefit. In essence, superevents are perceptually consistent local units that
delineate parts of an object in a scene. Inspired by recent deep learning
architectures, we present a novel method that employs lifetime augmentation for
obtaining an event stream representation that is fed to a fully convolutional
network to extract superevents. Our qualitative and quantitative experimental
results on several sequences of a benchmark dataset highlights the significant
potential for event-based downstream applications.
- Abstract(参考訳): 最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
これらの中間レベルの表現はイベントカメラでは探索されていないが、特に視覚的に疎く、しばしばイベントストリーム内の空間情報に関連がある。
局所的に一貫した中間表現をスーパーイベントと呼び、セマンティックセグメンテーション、視覚的追跡、深度推定といった多くの視覚的タスクが有用である。
本質的にスーパーイベントは知覚的に一貫性のあるローカルユニットであり、シーン内のオブジェクトの一部を記述します。
近年のディープラーニングアーキテクチャに触発されて,スーパーイベントを抽出するために,完全畳み込みネットワークに供給されるイベントストリーム表現を得るために,ライフタイム拡張を用いた新しい手法を提案する。
ベンチマークデータセットのいくつかのシーケンスに対する定性的かつ定量的な実験結果は、イベントベースのダウンストリームアプリケーションにとって重要な可能性を浮き彫りにしている。
関連論文リスト
- Event-to-Video Conversion for Overhead Object Detection [7.744259147081667]
イベントカメラは、特にオブジェクト検出などの複雑なタスクにおいて、下流の画像処理を複雑にする。
本稿では,高密度イベント表現とそれに対応するRGBフレームの間には,大きな差があることを述べる。
このギャップを埋めるために、イベントストリームをグレースケールのビデオに変換するイベント間変換モデルを適用する。
論文 参考訳(メタデータ) (2024-02-09T22:07:39Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning
on Event Streams [23.872611710730865]
イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。
本研究では,イベントストリーム上での表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しい注意認識モデルを開発した。
オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Deep ViT Features as Dense Visual Descriptors [12.83702462166513]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を濃密な視覚ディスクリプタとして活用する。
これらの記述子は、コセグメンテーション、部分のコセグメンテーション、および対応を含む様々な応用を促進する。
論文 参考訳(メタデータ) (2021-12-10T20:15:03Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。