論文の概要: TESPEC: Temporally-Enhanced Self-Supervised Pretraining for Event Cameras
- arxiv url: http://arxiv.org/abs/2508.00913v1
- Date: Tue, 29 Jul 2025 19:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.61834
- Title: TESPEC: Temporally-Enhanced Self-Supervised Pretraining for Event Cameras
- Title(参考訳): TESPEC:イベントカメラのための時間的に強化されたセルフ・スーパーバイザ・プレトレーニング
- Authors: Mohammad Mohammadi, Ziyi Wu, Igor Gilitschenski,
- Abstract要約: 事象に基づく知覚タスクには、長期的時間的情報が不可欠である。
現在の自己教師付き事前学習法は、主にRGBイメージベースのアプローチを模倣している。
本稿では,時間情報学習に適した自己指導型事前学習フレームワークTESPECを紹介する。
- 参考スコア(独自算出の注目度): 18.05887838800614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term temporal information is crucial for event-based perception tasks, as raw events only encode pixel brightness changes. Recent works show that when trained from scratch, recurrent models achieve better results than feedforward models in these tasks. However, when leveraging self-supervised pre-trained weights, feedforward models can outperform their recurrent counterparts. Current self-supervised learning (SSL) methods for event-based pre-training largely mimic RGB image-based approaches. They pre-train feedforward models on raw events within a short time interval, ignoring the temporal information of events. In this work, we introduce TESPEC, a self-supervised pre-training framework tailored for learning spatio-temporal information. TESPEC is well-suited for recurrent models, as it is the first framework to leverage long event sequences during pre-training. TESPEC employs the masked image modeling paradigm with a new reconstruction target. We design a novel method to accumulate events into pseudo grayscale videos containing high-level semantic information about the underlying scene, which is robust to sensor noise and reduces motion blur. Reconstructing this target thus requires the model to reason about long-term history of events. Extensive experiments demonstrate our state-of-the-art results in downstream tasks, including object detection, semantic segmentation, and monocular depth estimation. Project webpage: https://mhdmohammadi.github.io/TESPEC_webpage.
- Abstract(参考訳): 生のイベントはピクセル輝度だけをエンコードするので、イベントベースの知覚タスクには長期の時間情報が不可欠である。
最近の研究は、スクラッチからトレーニングすると、繰り返しモデルの方がこれらのタスクのフィードフォワードモデルよりも良い結果が得られることを示している。
しかし、自己教師付き事前訓練の重みを利用する場合、フィードフォワードモデルは繰り返し発生する重みよりも優れる。
イベントベースの事前トレーニングのための現在の自己教師付き学習(SSL)手法は、主にRGBイメージベースのアプローチを模倣している。
彼らは、イベントの時間的情報を無視して、短い時間間隔で生イベントのフィードフォワードモデルを事前訓練した。
本研究では,時空間情報学習に適した自己教師型事前学習フレームワークTESPECを紹介する。
TESPECは、トレーニング前の長いイベントシーケンスを利用する最初のフレームワークであるため、リカレントモデルに適している。
TESPECはマスク付き画像モデリングパラダイムを新しい再構成ターゲットとして採用している。
本研究では,センサノイズに耐性があり,動きのぼやけを低減できる,背景シーンに関する高レベルなセマンティック情報を含む疑似グレースケールビデオにイベントを蓄積する新しい手法を設計する。
したがって、このターゲットを再構築するには、モデルがイベントの長期的履歴を推論する必要がある。
広範囲な実験により、物体検出、セマンティックセグメンテーション、単眼深度推定など、下流タスクにおける最先端の成果が実証された。
プロジェクトWebページ: https://mhdmohammadi.github.io/TESPEC_webpage
関連論文リスト
- Revealing Latent Information: A Physics-inspired Self-supervised Pre-training Framework for Noisy and Sparse Events [25.348660233701708]
イベントカメラは、高時間分解能と広ダイナミックレンジでデータを記録する。
イベントデータは本質的にスパースでノイズが多く、主に明るさの変化を反映している。
本稿では,イベントデータ中の潜伏情報を完全に明らかにする自己教師付き事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T15:38:36Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Masked Event Modeling: Self-Supervised Pretraining for Event Cameras [41.263606382601886]
Masked Event Modeling (MEM) はイベントの自己組織化フレームワークである。
MEMは、記録されていないイベントのニューラルネットワークを事前トレーニングする。
本手法は3つのデータセットにまたがって最先端の分類精度に達する。
論文 参考訳(メタデータ) (2022-12-20T15:49:56Z) - Improved skin lesion recognition by a Self-Supervised Curricular Deep
Learning approach [0.0]
皮膚病変認識のための最先端のディープラーニングアプローチは、より大きな、より多様なデータセットを事前訓練する必要があることが多い。
ImageNetはしばしば事前トレーニングデータセットとして使用されるが、その転送ポテンシャルは、ソースデータセットとターゲット皮膚内視鏡シナリオの間のドメインギャップによって妨げられる。
そこで本研究では,一連のセルフ・スーパーバイザード・ラーニング・プレテキストタスクを逐次訓練する,新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-22T17:45:47Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。