論文の概要: Neuromorphic Facial Analysis with Cross-Modal Supervision
- arxiv url: http://arxiv.org/abs/2409.10213v1
- Date: Mon, 16 Sep 2024 12:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:40:35.096959
- Title: Neuromorphic Facial Analysis with Cross-Modal Supervision
- Title(参考訳): クロスモーダル・スーパービジョンを用いた顔面神経形態解析
- Authors: Federico Becattini, Luca Cultrera, Lorenzo Berlincioni, Claudio Ferrari, Andrea Leonardo, Alberto Del Bimbo,
- Abstract要約: 本稿では、RGBビデオとイベントストリームの両方からなるマルチモーダル時間同期顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
- 参考スコア(独自算出の注目度): 27.35270713671012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional approaches for analyzing RGB frames are capable of providing a fine-grained understanding of a face from different angles by inferring emotions, poses, shapes, landmarks. However, when it comes to subtle movements standard RGB cameras might fall behind due to their latency, making it hard to detect micro-movements that carry highly informative cues to infer the true emotions of a subject. To address this issue, the usage of event cameras to analyze faces is gaining increasing interest. Nonetheless, all the expertise matured for RGB processing is not directly transferrable to neuromorphic data due to a strong domain shift and intrinsic differences in how data is represented. The lack of labeled data can be considered one of the main causes of this gap, yet gathering data is harder in the event domain since it cannot be crawled from the web and labeling frames should take into account event aggregation rates and the fact that static parts might not be visible in certain frames. In this paper, we first present FACEMORPHIC, a multimodal temporally synchronized face dataset comprising both RGB videos and event streams. The data is labeled at a video level with facial Action Units and also contains streams collected with a variety of applications in mind, ranging from 3D shape estimation to lip-reading. We then show how temporal synchronization can allow effective neuromorphic face analysis without the need to manually annotate videos: we instead leverage cross-modal supervision bridging the domain gap by representing face shapes in a 3D space.
- Abstract(参考訳): RGBフレームを解析するための従来のアプローチは、感情、ポーズ、形状、ランドマークを推測することで、異なる角度から顔のきめ細かい理解を提供することができる。
しかし、標準のRGBカメラは遅延が原因で微妙な動きが遅れる可能性があるため、被験者の本当の感情を推測するために、非常に情報に富んだ手がかりを持つ微小な動きを検出するのが難しくなる。
この問題に対処するためには、顔を分析するイベントカメラの使用が注目されている。
それでも、RGB処理で成熟したすべての専門知識は、強いドメインシフトとデータの表現方法に固有の違いがあるため、ニューロモルフィックデータに直接転送できない。
ラベル付きデータの欠如は、このギャップの主な原因の1つと見なすことができるが、Webからクロールすることはできず、ラベル付けフレームはイベント集約率を考慮すべきであり、静的な部分が特定のフレームで見えないという事実を考慮に入れなければならないため、イベントドメインではデータ収集が困難である。
本稿では、まず、RGBビデオとイベントストリームの両方からなるマルチモーダル時間同期顔データセットであるFACEMORPHICを提示する。
データは、顔のアクションユニットでビデオレベルにラベル付けされ、また3D形状の推定から唇読みまで、さまざまなアプリケーションを念頭に置いて収集されたストリームも含まれている。
次に、時間的同期がビデオに手動で注釈を付けることなく効果的なニューロモーフィックな顔分析を可能にすることを示す。
関連論文リスト
- Spatio-temporal Transformers for Action Unit Classification with Event Cameras [28.98336123799572]
本稿では,RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
論文 参考訳(メタデータ) (2024-10-29T11:23:09Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event
Cameras [43.699819213559515]
既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集される。
我々は、特別に構築されたデータ取得システムを用いて収集された、最初の不整合フレームイベントデータセットCRSOTを構築した。
ゆるやかなRGBイベントデータを用いても、ロバストなトラッキングを実現することのできる、新しい非整列オブジェクト追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T14:20:22Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Neuromorphic Imaging and Classification with Graph Learning [11.882239213276392]
バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。
多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。
イベントデータの新しいグラフ表現を提案し,それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。
論文 参考訳(メタデータ) (2023-09-27T12:58:18Z) - Neuromorphic Event-based Facial Expression Recognition [17.72933597458857]
本稿では,ニューロモルフィック事象に基づく表情認識のためのデータセットNEFERを提案する。
NEFERは、ペア化されたRGBと、それぞれの感情でラベル付けされた人間の顔を表すイベントビデオで構成されている。
イベントベースアプローチの認識精度を2倍にし, 高速かつ検出し難い表現を解析するためのニューロモルフィックアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-04-13T09:02:10Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Differentiable Event Stream Simulator for Non-Rigid 3D Tracking [82.56690776283428]
我々の微分可能シミュレータは、イベントストリームから変形可能なオブジェクトの非剛性3D追跡を可能にする。
様々な種類の非剛体物体に対するアプローチの有効性を示し, 既存の非剛体3次元追跡手法と比較した。
論文 参考訳(メタデータ) (2021-04-30T17:58:07Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Matching Neuromorphic Events and Color Images via Adversarial Learning [49.447580124957966]
本稿では,イベントベース画像検索(EBIR)問題を提案する。
ニューロモルフィックイベント・カラー画像特徴学習(ECFL)によるEBIR問題に対処する。
また,EBIR問題の発展を促進するため,コミュニティN-UKbenchとEC180データセットにも貢献する。
論文 参考訳(メタデータ) (2020-03-02T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。