論文の概要: Spatio-temporal Transformers for Action Unit Classification with Event Cameras
- arxiv url: http://arxiv.org/abs/2410.21958v1
- Date: Tue, 29 Oct 2024 11:23:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:27.113564
- Title: Spatio-temporal Transformers for Action Unit Classification with Event Cameras
- Title(参考訳): イベントカメラを用いた行動単位分類のための時空間変換器
- Authors: Luca Cultrera, Federico Becattini, Lorenzo Berlincioni, Claudio Ferrari, Alberto Del Bimbo,
- Abstract要約: 本稿では,RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
- 参考スコア(独自算出の注目度): 28.98336123799572
- License:
- Abstract: Face analysis has been studied from different angles to infer emotion, poses, shapes, and landmarks. Traditionally RGB cameras are used, yet for fine-grained tasks standard sensors might not be up to the task due to their latency, making it impossible to record and detect micro-movements that carry a highly informative signal, which is necessary for inferring the true emotions of a subject. Event cameras have been increasingly gaining interest as a possible solution to this and similar high-frame rate tasks. We propose a novel spatiotemporal Vision Transformer model that uses Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA) to enhance the accuracy of Action Unit classification from event streams. We also address the lack of labeled event data in the literature, which can be considered one of the main causes of an existing gap between the maturity of RGB and neuromorphic vision models. Gathering data is harder in the event domain since it cannot be crawled from the web and labeling frames should take into account event aggregation rates and the fact that static parts might not be visible in certain frames. To this end, we present FACEMORPHIC, a temporally synchronized multimodal face dataset composed of RGB videos and event streams. The dataset is annotated at a video level with facial Action Units and contains streams collected with various possible applications, ranging from 3D shape estimation to lip-reading. We then show how temporal synchronization can allow effective neuromorphic face analysis without the need to manually annotate videos: we instead leverage cross-modal supervision bridging the domain gap by representing face shapes in a 3D space. Our proposed model outperforms baseline methods by effectively capturing spatial and temporal information, crucial for recognizing subtle facial micro-expressions.
- Abstract(参考訳): 顔分析は様々な角度から研究され、感情、ポーズ、形、ランドマークを推測している。
伝統的にRGBカメラは使われてきたが、標準的なセンサーはその遅延のためにタスクに間に合わない可能性があるため、被験者の真の感情を推測するのに必要となる、非常に情報性の高い信号を運ぶマイクロモーションを記録・検出することは不可能である。
イベントカメラは、これと同じような高フレームレートタスクに対するソリューションとして、ますます関心を集めている。
イベントストリームからのアクションユニット分類の精度を高めるために、シフトパッチトークン化(SPT)と局所自己注意(LSA)を用いた新しい時空間視覚変換器モデルを提案する。
また,RGBの成熟度とニューロモルフィック視覚モデルとの間に存在するギャップの1つと考えられる,ラベル付きイベントデータの欠如にも対処する。
データの収集は、Webからクロールすることはできず、ラベリングフレームは、イベント集約率と、静的な部分が特定のフレームで見えないという事実を考慮に入れなければならないため、イベントドメインでは難しい。
この目的のために、RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
データセットは、顔アクションユニットを備えたビデオレベルで注釈付けされ、3D形状推定から唇読取まで、さまざまな可能なアプリケーションで収集されたストリームを含んでいる。
次に、時間的同期がビデオに手動で注釈を付けることなく効果的なニューロモーフィックな顔分析を可能にすることを示す。
提案手法は, 顔の微妙な表現を認識する上で重要な空間的・時間的情報を効果的に捉え, ベースライン法より優れている。
関連論文リスト
- EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - Neuromorphic Facial Analysis with Cross-Modal Supervision [27.35270713671012]
本稿では、RGBビデオとイベントストリームの両方からなるマルチモーダル時間同期顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
論文 参考訳(メタデータ) (2024-09-16T12:04:26Z) - Neuromorphic Imaging and Classification with Graph Learning [11.882239213276392]
バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。
多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。
イベントデータの新しいグラフ表現を提案し,それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。
論文 参考訳(メタデータ) (2023-09-27T12:58:18Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Event-based Robotic Grasping Detection with Neuromorphic Vision Sensor
and Event-Stream Dataset [8.030163836902299]
ニューロモルフィック・ビジョンは、小さくて若い研究コミュニティである。従来のフレームベースのコンピュータビジョンと比較すると、ニューロモルフィック・ビジョンは小さくて若い研究コミュニティである。
91個のオブジェクトからなるイベントストリームデータセットという,ロボットによる把握データセットを構築した。
リードが高周波でブリンクするため、Event-Streamデータセットは1kHzの高周波でアノテートされる。
我々は、角度学習問題を回帰ではなく分類として考慮した、検出を把握するためのディープニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2020-04-28T16:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。