論文の概要: CS3D: An Efficient Facial Expression Recognition via Event Vision
- arxiv url: http://arxiv.org/abs/2512.09592v1
- Date: Wed, 10 Dec 2025 12:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.520193
- Title: CS3D: An Efficient Facial Expression Recognition via Event Vision
- Title(参考訳): CS3D:イベントビジョンによる効率的な顔表情認識
- Authors: Zhe Wang, Qijin Song, Yucen Peng, Weibang Bai,
- Abstract要約: イベントカメラは、表情の変化を捉えながらRGBカメラを超え、より広く採用されている。
表情分析のための伝統的なディープラーニング手法はエネルギー集約的である。
本稿では,計算複雑性とエネルギー消費を低減するために,畳み込み3D法を分解してCS3Dフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.2557351161800123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Responsive and accurate facial expression recognition is crucial to human-robot interaction for daily service robots. Nowadays, event cameras are becoming more widely adopted as they surpass RGB cameras in capturing facial expression changes due to their high temporal resolution, low latency, computational efficiency, and robustness in low-light conditions. Despite these advantages, event-based approaches still encounter practical challenges, particularly in adopting mainstream deep learning models. Traditional deep learning methods for facial expression analysis are energy-intensive, making them difficult to deploy on edge computing devices and thereby increasing costs, especially for high-frequency, dynamic, event vision-based approaches. To address this challenging issue, we proposed the CS3D framework by decomposing the Convolutional 3D method to reduce the computational complexity and energy consumption. Additionally, by utilizing soft spiking neurons and a spatial-temporal attention mechanism, the ability to retain information is enhanced, thus improving the accuracy of facial expression detection. Experimental results indicate that our proposed CS3D method attains higher accuracy on multiple datasets compared to architectures such as the RNN, Transformer, and C3D, while the energy consumption of the CS3D method is just 21.97\% of the original C3D required on the same device.
- Abstract(参考訳): 感情的かつ正確な表情認識は、日々のサービスロボットにとって人間とロボットの相互作用に不可欠である。
近年,高時間分解能,低レイテンシ,計算効率,低照度条件下での堅牢性などによる表情変化の捉え方において,RGBカメラを超えたイベントカメラが広く採用されている。
このようなアドバンテージにもかかわらず、イベントベースのアプローチは、特に主流のディープラーニングモデルを採用する上で、依然として実践的な課題に直面している。
従来の顔認識分析のディープラーニング手法はエネルギー集約的であり、エッジコンピューティングデバイスへのデプロイが困難であり、特に高周波、ダイナミック、イベントビジョンベースのアプローチではコストが増大する。
この課題に対処するため,計算複雑性とエネルギー消費を低減するために,畳み込み3D法を分解してCS3Dフレームワークを提案する。
さらに、ソフトスパイキングニューロンと空間的注意機構を利用することで、情報を保持する能力を高め、表情検出の精度を向上させる。
実験の結果,CS3D 法は RNN, Transformer, C3D などのアーキテクチャと比較して精度が高く,CS3D 法のエネルギー消費量は同一装置で要求される元の C3D の 21.97 % に過ぎなかった。
関連論文リスト
- A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential [3.232011096928682]
本稿では,事象に基づく視覚データを用いた人間行動認識のための軽量な3次元畳み込みニューラルネットワーク(3DCNN)を提案する。
結果、F1スコアは0.9415で、全体的な精度は94.17%で、ベンチマーク3D-CNNアーキテクチャを上回った。
論文 参考訳(メタデータ) (2025-11-05T17:30:31Z) - Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。
さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。
提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-29T12:08:02Z) - Event3DGS: Event-Based 3D Gaussian Splatting for High-Speed Robot Egomotion [54.197343533492486]
Event3DGSは高速移動下で高忠実度3D構造と外観を再構築することができる。
複数の合成および実世界のデータセットの実験は、既存のイベントベースの高密度な3Dシーン再構築フレームワークと比較して、Event3DGSの優位性を示している。
また, 構造的精度を損なうことなく, 外観の忠実度をより高められるように, フレームベースで数回の動特性測定を再構成プロセスに組み込むことも可能である。
論文 参考訳(メタデータ) (2024-06-05T06:06:03Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - 3D Adapted Random Forest Vision (3DARFV) for Untangling
Heterogeneous-Fabric Exceeding Deep Learning Semantic Segmentation Efficiency
at the Utmost Accuracy [1.6020567943077142]
3D画像の解析には多くの計算が必要であり、大きなエネルギー消費とともに処理時間が長くなる。
本稿では,確率的決定木アルゴリズムである3次元適応ランダムフォレストビジョン(DARFV)のセマンティックセグメンテーション能力について述べる。
論文 参考訳(メタデータ) (2022-03-23T15:05:23Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。