Fugu-MT 論文翻訳(概要): Masked Event Modeling: Self-Supervised Pretraining for Event Cameras

論文の概要: Masked Event Modeling: Self-Supervised Pretraining for Event Cameras

arxiv url: http://arxiv.org/abs/2212.10368v1
Date: Tue, 20 Dec 2022 15:49:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 16:43:31.499035
Title: Masked Event Modeling: Self-Supervised Pretraining for Event Cameras
Title（参考訳）: Masked Event Modeling: イベントカメラのための自己監督型事前トレーニング
Authors: Simon Klenk, David Bonello, Lukas Koestler, Daniel Cremers
Abstract要約: Masked Event Modeling (MEM)は、イベントのための自己教師付き事前トレーニングフレームワークである。本手法は,任意のイベントカメラ記録から得られるラベルのないイベントに対して,ニューラルネットワークを事前トレーニングする。提案手法は,N-ImageNet,N-Cars,N-Caltech101の最先端技術より優れ,N-ImageNetのオブジェクト分類精度を7.96%向上させる。
参考スコア（独自算出の注目度）: 44.27597581357968
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Event cameras offer the capacity to asynchronously capture brightness changes with low latency, high temporal resolution, and high dynamic range. Deploying deep learning methods for classification or other tasks to these sensors typically requires large labeled datasets. Since the amount of labeled event data is tiny compared to the bulk of labeled RGB imagery, the progress of event-based vision has remained limited. To reduce the dependency on labeled event data, we introduce Masked Event Modeling (MEM), a self-supervised pretraining framework for events. Our method pretrains a neural network on unlabeled events, which can originate from any event camera recording. Subsequently, the pretrained model is finetuned on a downstream task leading to an overall better performance while requiring fewer labels. Our method outperforms the state-of-the-art on N-ImageNet, N-Cars, and N-Caltech101, increasing the object classification accuracy on N-ImageNet by 7.96%. We demonstrate that Masked Event Modeling is superior to RGB-based pretraining on a real world dataset.
Abstract（参考訳）: イベントカメラは、低レイテンシ、高時間解像度、高ダイナミックレンジで輝度変化を非同期にキャプチャする機能を提供する。分類やその他のタスクのためのディープラーニングメソッドをこれらのセンサーにデプロイするには、通常、大きなラベル付きデータセットが必要である。ラベル付きイベントデータの量はラベル付きRGB画像に比べて少ないため、イベントベースのビジョンの進歩は依然として限られている。ラベル付きイベントデータへの依存性を低減するため、イベントのための自己教師付き事前トレーニングフレームワークであるMasked Event Modeling (MEM)を導入する。本手法は,任意のイベントカメラ記録から発生するラベルなしイベントに対してニューラルネットワークを事前学習する。その後、事前トレーニングされたモデルは下流タスクで微調整され、ラベルを少なくしながら全体的なパフォーマンスが向上する。提案手法は,N-ImageNet,N-Cars,N-Caltech101の最先端技術より優れ,N-ImageNetのオブジェクト分類精度を7.96%向上させる。 Masked Event Modelingは、実世界のデータセット上でのRGBベースの事前トレーニングよりも優れていることを示す。

関連論文リスト

ControlEvents: Controllable Synthesis of Event Camera Datawith Foundational Prior from Image Diffusion Models [61.17744115607788]
本稿では,多様な制御信号によって誘導される高品質なイベントデータを合成するために,拡散に基づく生成モデルを提案する。視覚認識, 2次元骨格推定, 3次元身体ポーズ推定のためのイベントデータを合成することで, 本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-09-26T19:22:07Z)
Leveraging RGB Images for Pre-Training of Event-Based Hand Pose Estimation [64.8814078041756]
RPEPはラベル付きRGB画像と未ラベルのイベントデータを用いたイベントベースの3次元ポーズ推定のための最初の事前学習手法である。 EvRealHandsの24%の改善を達成し、実イベントデータにおける最先端の手法を著しく上回る結果となった。
論文参考訳（メタデータ） (2025-09-21T07:07:49Z)
TESPEC: Temporally-Enhanced Self-Supervised Pretraining for Event Cameras [18.05887838800614]
事象に基づく知覚タスクには、長期的時間的情報が不可欠である。現在の自己教師付き事前学習法は、主にRGBイメージベースのアプローチを模倣している。本稿では,時間情報学習に適した自己指導型事前学習フレームワークTESPECを紹介する。
論文参考訳（メタデータ） (2025-07-29T19:52:48Z)
Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文参考訳（メタデータ） (2024-08-19T20:27:08Z)
Scalable Event-by-event Processing of Neuromorphic Sensory Signals With Deep State-Space Models [2.551844666707809]
イベントベースのセンサーはリアルタイム処理に適している。現在の方法では、イベントをフレームに分解するか、イベントデータをイベント単位で直接処理する場合にスケールアップできない。
論文参考訳（メタデータ） (2024-04-29T08:50:27Z)
Improving Event Definition Following For Zero-Shot Event Detection [66.27883872707523]
ゼロショットイベント検出に対する既存のアプローチは通常、既知のイベントタイプをアノテートしたデータセット上でモデルをトレーニングする。イベント定義に従うためのトレーニングモデルによるゼロショットイベント検出の改善を目指しています。
論文参考訳（メタデータ） (2024-03-05T01:46:50Z)
Event Camera Data Dense Pre-training [10.918407820258246]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文参考訳（メタデータ） (2023-11-20T04:36:19Z)
Event Camera Data Pre-training [14.77724035068357]
我々のモデルは、自己教師付き学習フレームワークであり、ペア化されたイベントカメラデータと自然なRGBイメージをトレーニングに使用しています。我々はN-ImageNetデータセットで64.83%でトップ1の精度を達成した。
論文参考訳（メタデータ） (2023-01-05T06:32:50Z)
Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文参考訳（メタデータ） (2021-10-19T17:41:43Z)
Bridging the Gap between Events and Frames through Unsupervised Domain Adaptation [57.22705137545853]
本稿では,ラベル付き画像とラベル付きイベントデータを用いてモデルを直接訓練するタスク転送手法を提案する。生成イベントモデルを利用して、イベント機能をコンテンツとモーションに分割します。われわれのアプローチは、イベントベースのニューラルネットワークのトレーニングのために、膨大な量の既存の画像データセットをアンロックする。
論文参考訳（メタデータ） (2021-09-06T17:31:37Z)
Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-10-16T12:36:23Z)
Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-04-21T03:14:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。