論文の概要: Event Camera Data Pre-training
- arxiv url: http://arxiv.org/abs/2301.01928v1
- Date: Thu, 5 Jan 2023 06:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 14:10:42.651142
- Title: Event Camera Data Pre-training
- Title(参考訳): イベントカメラデータの事前トレーニング
- Authors: Yan Yang and Liyuan Pan and Liu Liu
- Abstract要約: 本稿では,イベントカメラデータを扱うためのトレーニング済みニューラルネットワークを提案する。
我々のモデルは、自己教師付き学習フレームワークで訓練されており、ペア化されたイベントカメラデータと自然なRGB画像を用いて訓練を行っている。
- 参考スコア(独自算出の注目度): 14.77724035068357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a pre-trained neural network for handling event camera
data. Our model is trained in a self-supervised learning framework, and uses
paired event camera data and natural RGB images for training.
Our method contains three modules connected in a sequence: i) a family of
event data augmentations, generating meaningful event images for
self-supervised training; ii) a conditional masking strategy to sample
informative event patches from event images, encouraging our model to capture
the spatial layout of a scene and fast training; iii) a contrastive learning
approach, enforcing the similarity of embeddings between matching event images,
and between paired event-RGB images. An embedding projection loss is proposed
to avoid the model collapse when enforcing event embedding similarities. A
probability distribution alignment loss is proposed to encourage the event data
to be consistent with its paired RGB image in feature space.
Transfer performance in downstream tasks shows superior performance of our
method over state-of-the-art methods. For example, we achieve top-1 accuracy at
64.83\% on the N-ImageNet dataset.
- Abstract(参考訳): 本稿では,イベントカメラデータを扱うためのトレーニング済みニューラルネットワークを提案する。
私たちのモデルは、自己教師付き学習フレームワークでトレーニングされ、ペアのイベントカメラデータと自然なrgbイメージを使用してトレーニングを行います。
提案手法は3つのモジュールを連続して連結する。
一 自己監督訓練のための有意義なイベント画像を生成するイベントデータ増強の家系
二 イベント画像から有意義なイベントパッチをサンプリングし、我々のモデルにシーンの空間配置を捉え、迅速なトレーニングを促すための条件付きマスキング戦略。
三 一致したイベント画像とペア化されたイベント-RGB画像との埋め込みの類似性を強制する対照的な学習方法。
イベント埋め込み類似性を強制する際のモデル崩壊を回避するため、埋め込み投影損失を提案する。
特徴空間におけるイベントデータのペアRGB画像との整合性を促進するために,確率分布アライメント損失を提案する。
ダウンストリームタスクにおける転送性能は,最先端メソッドよりも優れた性能を示す。
例えば、N-ImageNetデータセット上で64.83\%でトップ1の精度を達成する。
関連論文リスト
- EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。
このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。
我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文 参考訳(メタデータ) (2024-08-19T20:27:08Z) - EZSR: Event-based Zero-Shot Recognition [21.10165234725309]
本稿では,イベントカメラデータを用いたゼロショット物体認識について検討する。
イベントエンコーダを追加の再構成ネットワークに頼ることなく開発する。
ViT/B-16バックボーンを用いたモデルでは,N-ImageNetデータセット上で47.84%のゼロショット精度を実現している。
論文 参考訳(メタデータ) (2024-07-31T14:06:06Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Event Camera Data Dense Pre-training [10.918407820258246]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - Masked Event Modeling: Self-Supervised Pretraining for Event Cameras [41.263606382601886]
Masked Event Modeling (MEM) はイベントの自己組織化フレームワークである。
MEMは、記録されていないイベントのニューラルネットワークを事前トレーニングする。
本手法は3つのデータセットにまたがって最先端の分類精度に達する。
論文 参考訳(メタデータ) (2022-12-20T15:49:56Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Matching Neuromorphic Events and Color Images via Adversarial Learning [49.447580124957966]
本稿では,イベントベース画像検索(EBIR)問題を提案する。
ニューロモルフィックイベント・カラー画像特徴学習(ECFL)によるEBIR問題に対処する。
また,EBIR問題の発展を促進するため,コミュニティN-UKbenchとEC180データセットにも貢献する。
論文 参考訳(メタデータ) (2020-03-02T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。