論文の概要: Data-efficient Event Camera Pre-training via Disentangled Masked
Modeling
- arxiv url: http://arxiv.org/abs/2403.00416v1
- Date: Fri, 1 Mar 2024 10:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:49:50.066998
- Title: Data-efficient Event Camera Pre-training via Disentangled Masked
Modeling
- Title(参考訳): アンタングル型マスケッドモデリングによるデータ効率の良いイベントカメラ事前訓練
- Authors: Zhenpeng Huang, Chao Li, Hao Chen, Yongjian Deng, Yifeng Geng, Limin
Wang
- Abstract要約: イベントカメラのための新しいデータ教師付きボクセルベースの自己教師付き学習手法を提案する。
提案手法は,時間的情報を犠牲にしたり,ペア画像データを直接利用したりする従来の手法の限界を克服する。
優れた一般化性能を示し、パラメータが少なく、計算コストも低い様々なタスクで大幅に改善されている。
- 参考スコア(独自算出の注目度): 20.987277885575963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new data-efficient voxel-based self-supervised
learning method for event cameras. Our pre-training overcomes the limitations
of previous methods, which either sacrifice temporal information by converting
event sequences into 2D images for utilizing pre-trained image models or
directly employ paired image data for knowledge distillation to enhance the
learning of event streams. In order to make our pre-training data-efficient, we
first design a semantic-uniform masking method to address the learning
imbalance caused by the varying reconstruction difficulties of different
regions in non-uniform data when using random masking. In addition, we ease the
traditional hybrid masked modeling process by explicitly decomposing it into
two branches, namely local spatio-temporal reconstruction and global semantic
reconstruction to encourage the encoder to capture local correlations and
global semantics, respectively. This decomposition allows our selfsupervised
learning method to converge faster with minimal pre-training data. Compared to
previous approaches, our self-supervised learning method does not rely on
paired RGB images, yet enables simultaneous exploration of spatial and temporal
cues in multiple scales. It exhibits excellent generalization performance and
demonstrates significant improvements across various tasks with fewer
parameters and lower computational costs.
- Abstract(参考訳): 本稿では,イベントカメラのための新しいデータ効率の高いvoxelベースの自己教師付き学習手法を提案する。
事前学習は,事前学習された画像モデルを利用した2次元画像にイベントシーケンスを変換したり,知識蒸留にペア画像データを直接使用してイベントストリームの学習を強化するといった,それまでの手法の限界を克服する。
事前学習データを効率よくするために,ランダムマスキングを用いた場合,非一様データの異なる領域の再構成困難に起因する学習不均衡に対処する意味一様マスキング法を設計する。
さらに,局所的時空間再構成と大域的意味再構築という2つの分野に明確に分解することで,従来のハイブリッドマスクモデリングプロセスを容易にし,局所的相関と大域的意味論の獲得を促す。
この分解により, 自己教師あり学習法は, 最小限の事前学習データでより高速に収束できる。
従来の手法と比較して, 自己教師付き学習法は対のrgb画像に依存しないが, 時間的手がかりと時間的手がかりを同時に複数スケールで探索できる。
一般化性能は優れており、パラメータが少なく計算コストも低い様々なタスクで大幅に改善されている。
関連論文リスト
- A Two-Stage Progressive Pre-training using Multi-Modal Contrastive Masked Autoencoders [5.069884983892437]
本稿では,RGB-Dデータセットを利用した画像理解タスクのプログレッシブ事前学習手法を提案する。
第一段階では、コントラスト学習を用いてモデルを事前学習し、クロスモーダル表現を学習する。
第2段階では、マスク付きオートエンコーディングと雑音予測を用いてモデルをさらに事前訓練する。
我々のアプローチはスケーラブルで堅牢で、RGB-Dデータセットを事前学習するのに適しています。
論文 参考訳(メタデータ) (2024-08-05T05:33:59Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Accelerating Multiframe Blind Deconvolution via Deep Learning [0.0]
地上からの太陽画像の復元は計算に費用がかかる手続きである。
本稿では,アルゴリズムのアンロールに基づく復元を高速化する手法を提案する。
両手法が標準最適化法と比較して復元時間を大幅に短縮することを示した。
論文 参考訳(メタデータ) (2023-06-21T07:53:00Z) - Towards Adaptable and Interactive Image Captioning with Data
Augmentation and Episodic Memory [8.584932159968002]
本稿では,画像キャプションのためのIMLパイプラインを提案する。これにより,事前学習したモデルをユーザ入力に基づく新しいデータ分布に漸進的に適応させることができる。
データの増大は結果が悪化するが、たとえ比較的少量のデータが利用可能であったとしても、エピソードメモリは、これまで見られたクラスタからの知識を維持するための効果的な戦略である。
論文 参考訳(メタデータ) (2023-06-06T08:38:10Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Single image calibration using knowledge distillation approaches [1.7205106391379026]
カメラパラメータを自動的に推定するCNNアーキテクチャを構築した。
我々は、新しいデータ配信のためのネットワークを更新する際に、知識を保存するために4つの一般的な漸進学習戦略を適用した。
実験結果は, カメラキャリブレーションのキャリブレーション推定において, いずれの手法が優れているかが示唆された。
論文 参考訳(メタデータ) (2022-12-05T15:59:35Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。
本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文 参考訳(メタデータ) (2020-12-16T21:46:33Z) - Shared Prior Learning of Energy-Based Models for Image Reconstruction [69.72364451042922]
本研究では,地中真理データを含まないトレーニングに特化して設計された画像再構成のための新しい学習ベースフレームワークを提案する。
基底真理データがない場合には、損失関数をパッチベースのワッサーシュタイン関数に変更する。
共用事前学習では、上記の最適制御問題と正規化器の共用学習パラメータを同時に最適化する。
論文 参考訳(メタデータ) (2020-11-12T17:56:05Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。