論文の概要: Event-based Facial Keypoint Alignment via Cross-Modal Fusion Attention and Self-Supervised Multi-Event Representation Learning
- arxiv url: http://arxiv.org/abs/2509.24968v1
- Date: Mon, 29 Sep 2025 16:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.112576
- Title: Event-based Facial Keypoint Alignment via Cross-Modal Fusion Attention and Self-Supervised Multi-Event Representation Learning
- Title(参考訳): クロスモーダル・フュージョン・アテンションと自己監督型マルチイベント表現学習によるイベントベースの顔のキーポイントアライメント
- Authors: Donghwa Kang, Junho Kim, Dongwoo Kang,
- Abstract要約: イベントカメラは、困難な条件下での顔のキーポイントアライメントにユニークな利点を提供する。
本稿では、イベントベースの顔キーポイントアライメントのための、相互統合注意(CMFA)と自己教師型マルチイベント表現学習(SSMER)に基づく新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.170645576584487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras offer unique advantages for facial keypoint alignment under challenging conditions, such as low light and rapid motion, due to their high temporal resolution and robustness to varying illumination. However, existing RGB facial keypoint alignment methods do not perform well on event data, and training solely on event data often leads to suboptimal performance because of its limited spatial information. Moreover, the lack of comprehensive labeled event datasets further hinders progress in this area. To address these issues, we propose a novel framework based on cross-modal fusion attention (CMFA) and self-supervised multi-event representation learning (SSMER) for event-based facial keypoint alignment. Our framework employs CMFA to integrate corresponding RGB data, guiding the model to extract robust facial features from event input images. In parallel, SSMER enables effective feature learning from unlabeled event data, overcoming spatial limitations. Extensive experiments on our real-event E-SIE dataset and a synthetic-event version of the public WFLW-V benchmark show that our approach consistently surpasses state-of-the-art methods across multiple evaluation metrics.
- Abstract(参考訳): イベントカメラは、低照度やラピッドモーションといった困難な条件下での顔のキーポイントアライメントに特有の利点を提供する。
しかし、既存のRGBの顔のキーポイントアライメント手法はイベントデータではうまく機能せず、イベントデータのみをトレーニングすることで、空間情報が限られているため、しばしば準最適性能をもたらす。
さらに、包括的なラベル付きイベントデータセットの欠如は、この分野の進歩をさらに妨げている。
これらの課題に対処するために、イベントベースの顔キーポイントアライメントのための相互統合注意(CMFA)と自己教師型マルチイベント表現学習(SSMER)に基づく新しいフレームワークを提案する。
我々のフレームワークはCMFAを用いて対応するRGBデータを統合し、イベント入力画像から堅牢な顔の特徴を抽出する。
並行して、SSMERは、未ラベルのイベントデータから効果的な特徴学習を可能にし、空間的制限を克服する。
実時間E-SIEデータセットと公開WFLW-Vベンチマークの総合的な実験により、我々のアプローチは複数の評価指標にまたがる最先端の手法を一貫して超えることを示した。
関連論文リスト
- Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection [56.88160531995454]
既存のRGBイベント検出手法は、特徴抽出と融合の間、両方のモダリティの低情報領域を均一に処理する。
マルチモーダル特徴の適応的コラボレーティブスカラー化を行うFocusMambaを提案する。
DSEC-Det と PKU-DAVIS-SOD データセットを用いた実験により,提案手法は精度と効率の両方において優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2025-09-04T04:18:46Z) - Spatially-guided Temporal Aggregation for Robust Event-RGB Optical Flow Estimation [47.75348821902489]
現在の光学フロー法は、フレーム(またはRGB)データの安定した出現を利用して、時間にわたって堅牢な対応を確立する。
一方、イベントカメラは、高時間分解能のモーションキューを提供し、挑戦的なシナリオに優れています。
本研究は,時間的に密度の高い事象モダリティの集合を導くために空間的に密度の高いモダリティを用いる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-01T13:40:09Z) - Dynamic Subframe Splitting and Spatio-Temporal Motion Entangled Sparse Attention for RGB-E Tracking [32.86991031493605]
イベントベースのバイオニックカメラは、高時間分解能と高ダイナミックレンジで動的シーンをキャプチャする。
イベントストリームをよりきめ細かいイベントクラスタに分割する動的イベントサブフレーム分割戦略を提案する。
そこで我々は,事象特徴の時間的・空間的相互作用を高めるために,事象に基づくスパースアテンション機構を設計する。
論文 参考訳(メタデータ) (2024-09-26T06:12:08Z) - EventZoom: A Progressive Approach to Event-Based Data Augmentation for Enhanced Neuromorphic Vision [9.447299017563841]
ダイナミックビジョンセンサー(DVS)は、高時間分解能と低消費電力でイベントデータをキャプチャする。
イベントデータ拡張は、イベントデータセットのスケールと多様性の制限を克服するための重要な方法である。
論文 参考訳(メタデータ) (2024-05-29T08:39:31Z) - Implicit Event-RGBD Neural SLAM [54.74363487009845]
神経性SLAMは近年顕著な進歩を遂げている。
既存の手法は、非理想的なシナリオにおいて重大な課題に直面します。
本稿では,最初のイベントRGBD暗黙的ニューラルSLAMフレームワークであるEN-SLAMを提案する。
論文 参考訳(メタデータ) (2023-11-18T08:48:58Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - A Differentiable Recurrent Surface for Asynchronous Event-Based Data [19.605628378366667]
本研究では,Long Short-Term Memory (LSTM) セルのグリッドであるMatrix-LSTMを提案する。
既存の再構成手法と比較して,学習した事象表面は柔軟性と光フロー推定に優れていた。
N-Carsデータセット上でのイベントベースのオブジェクト分類の最先端性を改善する。
論文 参考訳(メタデータ) (2020-01-10T14:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。