論文の概要: EvRepSL: Event-Stream Representation via Self-Supervised Learning for Event-Based Vision
- arxiv url: http://arxiv.org/abs/2412.07080v1
- Date: Tue, 10 Dec 2024 00:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:16.629527
- Title: EvRepSL: Event-Stream Representation via Self-Supervised Learning for Event-Based Vision
- Title(参考訳): EvRepSL: イベントベースビジョンのための自己教師付き学習によるイベントストリーム表現
- Authors: Qiang Qu, Xiaoming Chen, Yuk Ying Chung, Yiran Shen,
- Abstract要約: イベントストリーム表現は、多くのコンピュータビジョンタスクにおいて、イベントカメラを使用した最初のステップである。
イベントストリーム表現の品質向上を目的としたデータ駆動型手法を提案する。
- 参考スコア(独自算出の注目度): 12.542303392870329
- License:
- Abstract: Event-stream representation is the first step for many computer vision tasks using event cameras. It converts the asynchronous event-streams into a formatted structure so that conventional machine learning models can be applied easily. However, most of the state-of-the-art event-stream representations are manually designed and the quality of these representations cannot be guaranteed due to the noisy nature of event-streams. In this paper, we introduce a data-driven approach aiming at enhancing the quality of event-stream representations. Our approach commences with the introduction of a new event-stream representation based on spatial-temporal statistics, denoted as EvRep. Subsequently, we theoretically derive the intrinsic relationship between asynchronous event-streams and synchronous video frames. Building upon this theoretical relationship, we train a representation generator, RepGen, in a self-supervised learning manner accepting EvRep as input. Finally, the event-streams are converted to high-quality representations, termed as EvRepSL, by going through the learned RepGen (without the need of fine-tuning or retraining). Our methodology is rigorously validated through extensive evaluations on a variety of mainstream event-based classification and optical flow datasets (captured with various types of event cameras). The experimental results highlight not only our approach's superior performance over existing event-stream representations but also its versatility, being agnostic to different event cameras and tasks.
- Abstract(参考訳): イベントストリーム表現は、多くのコンピュータビジョンタスクにおいて、イベントカメラを使用した最初のステップである。
非同期イベントストリームをフォーマット構造に変換し、従来の機械学習モデルを簡単に適用できるようにする。
しかし、最先端のイベントストリーム表現のほとんどは手動で設計されており、これらの表現の品質はイベントストリームのノイズの性質のために保証できない。
本稿では,イベントストリーム表現の品質向上を目的としたデータ駆動型手法を提案する。
提案手法は,EvRepと表記される時空間統計に基づく新しいイベントストリーム表現の導入から始まる。
その後、非同期イベントストリームと同期ビデオフレームの本質的な関係を理論的に導出する。
この理論的関係に基づいて、EvRepを入力として受け入れる自己教師付き学習方法で表現生成器RepGenを訓練する。
最後に、イベントストリームは、学習したRepGenを通過する(微調整や再トレーニングを必要とせずに)ことで、EvRepSLと呼ばれる高品質な表現に変換される。
本手法は,各種のイベントベース分類と光学フローデータセット(各種のイベントカメラでキャプチャした)の広範囲な評価により,厳密に検証されている。
実験の結果は、既存のイベントストリーム表現よりも優れたパフォーマンスを示すだけでなく、さまざまなイベントカメラやタスクに依存せず、その汎用性も強調している。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields [80.94515892378053]
EvDNeRFは、イベントデータを生成し、イベントベースの動的NeRFをトレーニングするためのパイプラインである。
NeRFは幾何学ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。
各種イベントのバッチサイズをトレーニングすることにより、微細な時間解像度でイベントのテスト時間予測を改善することができることを示す。
論文 参考訳(メタデータ) (2023-10-03T21:08:41Z) - Learning Bottleneck Transformer for Event Image-Voxel Feature Fusion
based Classification [6.550582412924754]
本稿では,イベント表現,抽出,融合のための新しいデュアルストリームフレームワークを提案する。
実験により,提案フレームワークは,広く使用されている2つのイベントベース分類データセットに対して,最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-08-23T06:07:56Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - Bina-Rep Event Frames: a Simple and Effective Representation for
Event-based cameras [1.6114012813668934]
ビナ・レップ(Bina-Rep)は、イベントカメラからのイベントの非同期ストリームを、スパースで表現豊かなイベントフレームのシーケンスに変換するシンプルな表現法である。
本手法では,元のストリームにおけるイベント順序に関する保持情報により,より表現力のあるイベントフレームを抽出することができる。
論文 参考訳(メタデータ) (2022-02-28T10:23:09Z) - Superevents: Towards Native Semantic Segmentation for Event-based
Cameras [13.099264910430986]
最も成功したコンピュータビジョンモデルは、gaborフィルタ応答のような低レベルの機能を下流の視覚タスクの中間または中間レベルの複雑さのよりリッチな表現に変換する。
本論文では,全畳み込みネットワークに供給されるイベントストリーム表現を得るために,生涯拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-13T05:49:41Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。