論文の概要: Superevents: Towards Native Semantic Segmentation for Event-based
Cameras
- arxiv url: http://arxiv.org/abs/2105.06091v1
- Date: Thu, 13 May 2021 05:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 23:27:14.463791
- Title: Superevents: Towards Native Semantic Segmentation for Event-based
Cameras
- Title(参考訳): superevents: イベントベースのカメラのネイティブセマンティクスセグメンテーションに向けて
- Authors: Weng Fei Low, Ankit Sonthalia, Zhi Gao, Andr\'e van Schaik, Bharath
Ramesh
- Abstract要約: 最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 13.099264910430986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most successful computer vision models transform low-level features, such as
Gabor filter responses, into richer representations of intermediate or
mid-level complexity for downstream visual tasks. These mid-level
representations have not been explored for event cameras, although it is
especially relevant to the visually sparse and often disjoint spatial
information in the event stream. By making use of locally consistent
intermediate representations, termed as superevents, numerous visual tasks
ranging from semantic segmentation, visual tracking, depth estimation shall
benefit. In essence, superevents are perceptually consistent local units that
delineate parts of an object in a scene. Inspired by recent deep learning
architectures, we present a novel method that employs lifetime augmentation for
obtaining an event stream representation that is fed to a fully convolutional
network to extract superevents. Our qualitative and quantitative experimental
results on several sequences of a benchmark dataset highlights the significant
potential for event-based downstream applications.
- Abstract(参考訳): 最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
これらの中間レベルの表現はイベントカメラでは探索されていないが、特に視覚的に疎く、しばしばイベントストリーム内の空間情報に関連がある。
局所的に一貫した中間表現をスーパーイベントと呼び、セマンティックセグメンテーション、視覚的追跡、深度推定といった多くの視覚的タスクが有用である。
本質的にスーパーイベントは知覚的に一貫性のあるローカルユニットであり、シーン内のオブジェクトの一部を記述します。
近年のディープラーニングアーキテクチャに触発されて,スーパーイベントを抽出するために,完全畳み込みネットワークに供給されるイベントストリーム表現を得るために,ライフタイム拡張を用いた新しい手法を提案する。
ベンチマークデータセットのいくつかのシーケンスに対する定性的かつ定量的な実験結果は、イベントベースのダウンストリームアプリケーションにとって重要な可能性を浮き彫りにしている。
関連論文リスト
- EvRepSL: Event-Stream Representation via Self-Supervised Learning for Event-Based Vision [12.542303392870329]
イベントストリーム表現は、多くのコンピュータビジョンタスクにおいて、イベントカメラを使用した最初のステップである。
イベントストリーム表現の品質向上を目的としたデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T00:42:54Z) - Finding Meaning in Points: Weakly Supervised Semantic Segmentation for Event Cameras [45.063747874243276]
本稿では,イベントベースセマンティックセマンティックセグメンテーションのための新しい弱教師付きアプローチEV-WSSSを提案する。
提案フレームワークは,(1)前向きのイベントデータと(2)逆向きのイベントデータとの間に非対称な二重学習を行う。
提案手法は,画素レベルの高密度地下真実に頼らずとも,かなりのセグメンテーション結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T20:00:50Z) - Event-to-Video Conversion for Overhead Object Detection [7.744259147081667]
イベントカメラは、特にオブジェクト検出などの複雑なタスクにおいて、下流の画像処理を複雑にする。
本稿では,高密度イベント表現とそれに対応するRGBフレームの間には,大きな差があることを述べる。
このギャップを埋めるために、イベントストリームをグレースケールのビデオに変換するイベント間変換モデルを適用する。
論文 参考訳(メタデータ) (2024-02-09T22:07:39Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。