論文の概要: Revealing Latent Information: A Physics-inspired Self-supervised Pre-training Framework for Noisy and Sparse Events
- arxiv url: http://arxiv.org/abs/2508.05507v1
- Date: Thu, 07 Aug 2025 15:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.933537
- Title: Revealing Latent Information: A Physics-inspired Self-supervised Pre-training Framework for Noisy and Sparse Events
- Title(参考訳): Revealing Latent Information: ノイズとスパースイベントのための物理に着想を得た自己教師型事前学習フレームワーク
- Authors: Lin Zhu, Ruonan Liu, Xiao Wang, Lizhi Wang, Hua Huang,
- Abstract要約: イベントカメラは、高時間分解能と広ダイナミックレンジでデータを記録する。
イベントデータは本質的にスパースでノイズが多く、主に明るさの変化を反映している。
本稿では,イベントデータ中の潜伏情報を完全に明らかにする自己教師付き事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.348660233701708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event camera, a novel neuromorphic vision sensor, records data with high temporal resolution and wide dynamic range, offering new possibilities for accurate visual representation in challenging scenarios. However, event data is inherently sparse and noisy, mainly reflecting brightness changes, which complicates effective feature extraction. To address this, we propose a self-supervised pre-training framework to fully reveal latent information in event data, including edge information and texture cues. Our framework consists of three stages: Difference-guided Masked Modeling, inspired by the event physical sampling process, reconstructs temporal intensity difference maps to extract enhanced information from raw event data. Backbone-fixed Feature Transition contrasts event and image features without updating the backbone to preserve representations learned from masked modeling and stabilizing their effect on contrastive learning. Focus-aimed Contrastive Learning updates the entire model to improve semantic discrimination by focusing on high-value regions. Extensive experiments show our framework is robust and consistently outperforms state-of-the-art methods on various downstream tasks, including object recognition, semantic segmentation, and optical flow estimation. The code and dataset are available at https://github.com/BIT-Vision/EventPretrain.
- Abstract(参考訳): イベントカメラは、新しいニューロモルフィック視覚センサであり、高い時間分解能と広いダイナミックレンジでデータを記録し、挑戦的なシナリオにおける正確な視覚表現の新しい可能性を提供する。
しかし、事象データは本質的にスパースでノイズが多く、主に明るさの変化を反映し、効果的な特徴抽出を複雑にする。
そこで本稿では,エッジ情報やテクスチャキューを含むイベントデータ中の潜伏情報を完全に明らかにする,自己教師型事前学習フレームワークを提案する。
イベント物理的サンプリングプロセスにインスパイアされた差分誘導マスケッドモデリングは、時間強度差マップを再構成し、生のイベントデータから強化情報を抽出する。
Backbone-fixed Feature Transitionは、マスク付きモデリングから学んだ表現を保存するためにバックボーンを更新することなく、イベントとイメージの特徴を対比し、コントラスト学習への影響を安定化する。
Focus-aistive Contrastive Learningは、高価値領域に着目して意味的識別を改善するために、モデル全体を更新する。
大規模な実験により、我々のフレームワークは頑健であり、オブジェクト認識、セマンティックセグメンテーション、光フロー推定など、様々な下流タスクにおける最先端の手法よりも一貫して優れていることが示された。
コードとデータセットはhttps://github.com/BIT-Vision/EventPretrain.comで公開されている。
関連論文リスト
- Event-Based Crossing Dataset (EBCD) [0.9961452710097684]
イベントベースの視覚は、静的フレームではなく、強度の変化をキャプチャすることで、従来のイメージセンシングに革命をもたらす。
Event-Based Crossingデータセットは、動的な屋外環境での歩行者と車両の検出に適したデータセットである。
このデータセットは、疎度と騒音抑制の異なる条件下での物体検出性能の広範囲な評価を容易にする。
論文 参考訳(メタデータ) (2025-03-21T19:20:58Z) - Event-based Motion Deblurring via Multi-Temporal Granularity Fusion [5.58706910566768]
連続的な視覚情報を提供するバイオインスパイアされたセンサーであるイベントカメラは、劣化性能を高める可能性がある。
既存のイベントベースの画像デブロアリングは、通常、ボクセルベースのイベント表現を使用する。
画像分解タスクにポイントクラウドベースのイベント表現を導入し、MTGNet(Multi-Temporal Granularity Network)を提案する。
空間的に密度が高いが、時間的に粗いボクセルベースのイベント表現と、時間的に細粒だが空間的に粗い点雲ベースのイベントを組み合わせる。
論文 参考訳(メタデータ) (2024-12-16T15:20:54Z) - Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T14:36:24Z) - Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。
このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。
我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文 参考訳(メタデータ) (2024-08-19T20:27:08Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - EventZoom: A Progressive Approach to Event-Based Data Augmentation for Enhanced Neuromorphic Vision [9.447299017563841]
ダイナミックビジョンセンサー(DVS)は、高時間分解能と低消費電力でイベントデータをキャプチャする。
イベントデータ拡張は、イベントデータセットのスケールと多様性の制限を克服するための重要な方法である。
論文 参考訳(メタデータ) (2024-05-29T08:39:31Z) - An Event-Oriented Diffusion-Refinement Method for Sparse Events
Completion [36.64856578682197]
イベントカメラまたはダイナミックビジョンセンサー(DVS)は、従来の強度フレームの代わりに輝度の変化に対する非同期応答を記録する。
本稿では,処理段階と出力形態の両方において,イベントデータのユニークな特性に適合するイベント完了シーケンス手法を提案する。
具体的には,イベントストリームを時間領域内の3次元イベントクラウドとして扱うとともに,高密度の雲を粗大に生成する拡散モデルを構築し,正確なタイムスタンプを復元して生データの時間分解を成功させる。
論文 参考訳(メタデータ) (2024-01-06T08:09:54Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。