論文の概要: Event Camera Data Pre-training
- arxiv url: http://arxiv.org/abs/2301.01928v2
- Date: Wed, 5 Apr 2023 13:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 15:38:03.205911
- Title: Event Camera Data Pre-training
- Title(参考訳): イベントカメラデータの事前トレーニング
- Authors: Yan Yang and Liyuan Pan and Liu Liu
- Abstract要約: 我々のモデルは、自己教師付き学習フレームワークであり、ペア化されたイベントカメラデータと自然なRGBイメージをトレーニングに使用しています。
我々はN-ImageNetデータセットで64.83%でトップ1の精度を達成した。
- 参考スコア(独自算出の注目度): 14.77724035068357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a pre-trained neural network for handling event camera
data. Our model is a self-supervised learning framework, and uses paired event
camera data and natural RGB images for training.
Our method contains three modules connected in a sequence: i) a family of
event data augmentations, generating meaningful event images for
self-supervised training; ii) a conditional masking strategy to sample
informative event patches from event images, encouraging our model to capture
the spatial layout of a scene and accelerating training; iii) a contrastive
learning approach, enforcing the similarity of embeddings between matching
event images, and between paired event and RGB images. An embedding projection
loss is proposed to avoid the model collapse when enforcing the event image
embedding similarities. A probability distribution alignment loss is proposed
to encourage the event image to be consistent with its paired RGB image in the
feature space.
Transfer learning performance on downstream tasks shows the superiority of
our method over state-of-the-art methods. For example, we achieve top-1
accuracy at 64.83% on the N-ImageNet dataset.
- Abstract(参考訳): 本稿では,イベントカメラデータを扱うためのトレーニング済みニューラルネットワークを提案する。
私たちのモデルは、自己教師付き学習フレームワークであり、ペアのイベントカメラデータと自然なrgbイメージを使用してトレーニングを行います。
提案手法は3つのモジュールを連続して連結する。
一 自己監督訓練のための有意義なイベント画像を生成するイベントデータ増強の家系
二 イベント画像から有意義なイベントパッチをサンプリングし、我々のモデルにシーンの空間配置を捉え、訓練を加速させるための条件付きマスキング戦略
三 一致したイベント画像とペア化されたイベント画像とRGB画像との埋め込みの類似性を強制する対照的な学習方法。
イベント画像の埋め込み類似性を高める際に, モデル崩壊を回避するために, 埋め込み投影損失を提案する。
イベント画像が特徴空間における対のrgb画像と一致するようにするための確率分布アライメント損失を提案する。
ダウンストリームタスクにおける転送学習性能は,最先端手法よりも優れていることを示す。
例えば、N-ImageNetデータセットにおいて、トップ1の精度は64.83%に達する。
関連論文リスト
- EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。
このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。
我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文 参考訳(メタデータ) (2024-08-19T20:27:08Z) - EZSR: Event-based Zero-Shot Recognition [21.10165234725309]
本稿では,イベントカメラデータを用いたゼロショット物体認識について検討する。
イベントエンコーダを追加の再構成ネットワークに頼ることなく開発する。
N-ImageNetデータセットで47.84%のゼロショット精度を達成した。
論文 参考訳(メタデータ) (2024-07-31T14:06:06Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Event Camera Data Dense Pre-training [10.918407820258246]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - Masked Event Modeling: Self-Supervised Pretraining for Event Cameras [41.263606382601886]
Masked Event Modeling (MEM) はイベントの自己組織化フレームワークである。
MEMは、記録されていないイベントのニューラルネットワークを事前トレーニングする。
本手法は3つのデータセットにまたがって最先端の分類精度に達する。
論文 参考訳(メタデータ) (2022-12-20T15:49:56Z) - Bridging the Gap between Events and Frames through Unsupervised Domain
Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。
生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。
われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文 参考訳(メタデータ) (2021-09-06T17:31:37Z) - Matching Neuromorphic Events and Color Images via Adversarial Learning [49.447580124957966]
本稿では,イベントベース画像検索(EBIR)問題を提案する。
ニューロモルフィックイベント・カラー画像特徴学習(ECFL)によるEBIR問題に対処する。
また,EBIR問題の発展を促進するため,コミュニティN-UKbenchとEC180データセットにも貢献する。
論文 参考訳(メタデータ) (2020-03-02T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。