論文の概要: Exploring deep learning for Event-Based Saliency Prediction with a Transformer-based model
- arxiv url: http://arxiv.org/abs/2605.23790v1
- Date: Fri, 22 May 2026 15:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.421782
- Title: Exploring deep learning for Event-Based Saliency Prediction with a Transformer-based model
- Title(参考訳): 変圧器モデルを用いたイベントベース残差予測のための深層学習の探索
- Authors: Romaric Mazna, Jean Martinet, Sai Deepesh Pokala,
- Abstract要約: 人間の視覚的注意力の計算モデルとして,RGB画像やビデオでサリエンシ予測が広く研究されている。
SEST(Swin Event-based Saliency Transformer)は,イベントデータからサリエンシ予測を行うトランスフォーマーモデルである。
N-DHF1KとN-UCF Sportsという2つのベンチマークデータセットを導入する。
- 参考スコア(独自算出の注目度): 3.1333320740278623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Saliency prediction has been extensively studied in RGB images and videos as a computational model of human visual attention. In contrast, predicting saliency from event-based data remains largely unexplored, despite the biological inspiration and favorable sensing properties of event cameras. Two obstacles have held this direction back: the absence of large-scale event saliency datasets, and the lack of a strong baseline. In this paper, we introduce SEST (Swin Event-based Saliency Transformer), a transformer-based model for saliency prediction from event data, bridging the data scarcity barrier through event-native pretraining and synthetic supervision. SEST leverages a self-supervised pretrained event-based Swin Transformer backbone combined with a lightweight CNN decoder to produce dynamic saliency maps. To address the scarcity of annotated event-based saliency data, we introduce two new benchmark datasets, N-DHF1K and N-UCF Sports, generated from large-scale RGB saliency benchmarks. Experimental results show that SEST clearly outperforms existing event-based saliency methods and narrows the performance gap with state-of-the-art RGB models. Zero-shot evaluation on a real event camera dataset further demonstrates that our model trained on synthetic data remains transferable on real event streams. To the best of our knowledge, this work is the first to apply deep learning to event-based saliency prediction, opening a new research direction at the intersection of event-based vision and neuromorphic visual attention.
- Abstract(参考訳): 人間の視覚的注意力の計算モデルとして,RGB画像やビデオでサリエンシ予測が広く研究されている。
対照的に、生物学的なインスピレーションとイベントカメラの良好なセンシング特性にもかかわらず、イベントベースのデータからの正当性を予測することは、ほとんど探索されていない。
大規模なイベントサリエンシデータセットの欠如、強力なベースラインの欠如だ。
本稿では,SEST(Swin Event-based Saliency Transformer)について紹介する。SEST(Swin Event-based Saliency Transformer)は,イベントデータからサリエンシを予測し,イベントネイティブな事前学習と合成監視を通じてデータ不足障壁をブリッジするトランスフォーマーモデルである。
SESTは、自己教師付きイベントベースのSwin Transformerバックボーンと軽量CNNデコーダを組み合わせることで、動的サリエンシマップを生成する。
注釈付きイベントベース・サリエンシデータの不足に対処するため,大規模なRGBサリエンシ・ベンチマークから生成されたN-DHF1KとN-UCF Sportsという2つの新しいベンチマークデータセットを導入した。
実験結果から、SESTは既存のイベントベースサリエンシ手法よりも明らかに優れており、最先端のRGBモデルと性能ギャップを狭めていることが明らかとなった。
実イベントカメラデータセットのゼロショット評価は、我々の合成データに基づいてトレーニングされたモデルが、実イベントストリーム上で転送可能であることをさらに証明している。
我々の知る限りでは、この研究は、イベントベース視覚とニューロモルフィック視覚の交点に新たな研究の方向を開く、イベントベースサリエンシ予測にディープラーニングを適用した最初のものである。
関連論文リスト
- EventGait: Towards Robust Gait Recognition with Event Streams [50.890621860023]
イベントカメラは、マイクロ秒時間分解能と高ダイナミックレンジを提供し、自然にロバストなダイナミックキューをキャプチャし、静的ノイズを抑制する。
イベントの利点を保ちながら、動きと形状を別々にモデル化する、エンドツーエンドのデュアルストリームフレームワークである textbfEventGait を提案する。
当社のアプローチでは,イベント駆動歩行分析の堅牢性と可能性を強調し,合成および実世界の歩行ベンチマークに新たな技術状況が設定されている。
論文 参考訳(メタデータ) (2026-05-21T08:12:04Z) - Towards Video Anomaly Detection from Event Streams: A Baseline and Benchmark Datasets [71.53287557600177]
イベントベースの異常検出を統一研究の方向性として確立するための第一歩を踏み出す。
まず、同期イベントとRGB記録を特徴とする、ビデオ異常検出のための複数のイベントストリームベースのベンチマークを構築した。
次に,EVent中心のビデオ異常検出フレームワークであるEWADを提案する。
論文 参考訳(メタデータ) (2026-03-26T03:33:33Z) - Ev4DGS: Novel-view Rendering of Non-Rigid Objects from Monocular Event Streams [34.02850677061797]
Ev4DGSは、明示的な観測空間において、厳密でない変形物体の新たなビューレンダリングのための最初のアプローチである。
提案手法は,(1)推定モデルの出力と2次元事象観測空間との損失,(2)事象から生成された2次元マスクからトレーニングされた粗い3次元変形モデルを通して,変形可能な3次元ガウススティング表現を回帰する。
論文 参考訳(メタデータ) (2025-10-13T17:59:55Z) - Leveraging RGB Images for Pre-Training of Event-Based Hand Pose Estimation [64.8814078041756]
RPEPはラベル付きRGB画像と未ラベルのイベントデータを用いたイベントベースの3次元ポーズ推定のための最初の事前学習手法である。
EvRealHandsの24%の改善を達成し、実イベントデータにおける最先端の手法を著しく上回る結果となった。
論文 参考訳(メタデータ) (2025-09-21T07:07:49Z) - Evaluating Image-Based Face and Eye Tracking with Event Cameras [9.677797822200965]
イベントカメラはニューロモルフィックセンサーとしても知られており、ピクセルレベルの局所光強度の変化を捉え、非同期に生成されたイベントと呼ばれるデータを生成する。
このデータフォーマットは、高速で動く物体を撮影する際のアンダーサンプリングのような、従来のカメラで観察される一般的な問題を緩和する。
我々は、従来のアルゴリズムとイベントベースのデータを統合することにより、フレーム形式に変換される可能性を評価する。
論文 参考訳(メタデータ) (2024-08-19T20:27:08Z) - Event Camera Data Dense Pre-training [10.918407820258246]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Improve Event Extraction via Self-Training with Gradient Guidance [10.618929821822892]
本稿では、イベント抽出の進行を妨げる主な要因を克服するために、フィードバックによる自己評価(STF)フレームワークを提案する。
STFは,(1)既存のイベントアノテーションに基づいてトレーニングされたベースイベント抽出モデルと,(2)新しいイベント参照を擬似トレーニングサンプルとして予測するための大規模未ラベルコーパスと,(2)新しいイベントトリガ,引数,引数ロール,およびAMRグラフ内のそれらのパスを用いて互換性スコアを推定する新たなスコアリングモデルから構成される。
ACE05-E、ACE05-E+、EREを含む3つのベンチマークデータセットの実験結果
論文 参考訳(メタデータ) (2022-05-25T04:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。