論文の概要: The Latency Wall: Benchmarking Off-the-Shelf Emotion Recognition for Real-Time Virtual Avatars
- arxiv url: http://arxiv.org/abs/2601.15914v1
- Date: Thu, 22 Jan 2026 12:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.600928
- Title: The Latency Wall: Benchmarking Off-the-Shelf Emotion Recognition for Real-Time Virtual Avatars
- Title(参考訳): The Latency Wall: リアルタイムバーチャルアバターのための既製の感情認識のベンチマーク
- Authors: Yarin Benyamin,
- Abstract要約: リアルタイムの感情認識は、自閉症スペクトラム障害(ASD)を持つ個人が社会的スキルを向上させることを約束している。
この研究は、治療環境でアクセス可能なリアルタイムAIを実現するために、軽量でドメイン固有のアーキテクチャの必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the realm of Virtual Reality (VR) and Human-Computer Interaction (HCI), real-time emotion recognition shows promise for supporting individuals with Autism Spectrum Disorder (ASD) in improving social skills. This task requires a strict latency-accuracy trade-off, with motion-to-photon (MTP) latency kept below 140 ms to maintain contingency. However, most off-the-shelf Deep Learning models prioritize accuracy over the strict timing constraints of commodity hardware. As a first step toward accessible VR therapy, we benchmark State-of-the-Art (SOTA) models for Zero-Shot Facial Expression Recognition (FER) on virtual characters using the UIBVFED dataset. We evaluate Medium and Nano variants of YOLO (v8, v11, and v12) for face detection, alongside general-purpose Vision Transformers including CLIP, SigLIP, and ViT-FER.Our results on CPU-only inference demonstrate that while face detection on stylized avatars is robust (100% accuracy), a "Latency Wall" exists in the classification stage. The YOLOv11n architecture offers the optimal balance for detection (~54 ms). However, general-purpose Transformers like CLIP and SigLIP fail to achieve viable accuracy (<23%) or speed (>150 ms) for real-time loops. This study highlights the necessity for lightweight, domain-specific architectures to enable accessible, real-time AI in therapeutic settings.
- Abstract(参考訳): バーチャルリアリティ(VR)とヒューマン・コンピュータ・インタラクション(HCI)の領域では、リアルタイムの感情認識は、自閉症スペクトラム障害(ASD)を持つ個人が社会的スキルを向上させることを約束している。
このタスクには厳格なレイテンシのトレードオフが必要で、同期を維持するためにモーション・トゥ・フォトン(MTP)レイテンシは140ミリ秒以下である。
しかし、市販のディープラーニングモデルは、コモディティハードウェアの厳格なタイミング制約よりも精度を優先する。
アクセス可能なVR治療に向けた第一歩として、UIBVFEDデータセットを用いて、ゼロショット表情認識(FER)のためのステート・オブ・ザ・アート(SOTA)モデルを仮想文字上でベンチマークする。
CLIP, SigLIP, ViT-FERなどの汎用視覚変換器とともに, 顔検出のためのYOLO (v8, v11, v12) の中間およびナノ変種を評価した。
YOLOv11nアーキテクチャは、検出のための最適なバランス(約54ms)を提供する。
しかし、CLIPやSigLIPのような汎用トランスフォーマーは、リアルタイムループの精度(23%)や速度(>150ms)を達成できない。
この研究は、治療環境でアクセス可能なリアルタイムAIを実現するために、軽量でドメイン固有のアーキテクチャの必要性を強調している。
関連論文リスト
- RT-DETRv4: Painlessly Furthering Real-Time Object Detection with Vision Foundation Models [48.91205564876609]
軽量物体検出器の高効率化を目的とした,コスト効率・高適合性蒸留フレームワークを提案する。
当社のアプローチは、さまざまなDETRベースのモデルに対して、目立って一貫したパフォーマンス向上を実現しています。
我々の新しいモデルファミリーRT-DETRv4はCOCOの最先端結果を達成し、APスコアは49.7/53.5/55.4/57.0で、対応する速度は273/169/124/78 FPSである。
論文 参考訳(メタデータ) (2025-10-29T08:13:17Z) - ESCA: Enabling Seamless Codec Avatar Execution through Algorithm and Hardware Co-Optimization for Virtual Reality [8.437724028285682]
フォトコーデックアバター(PCA)は、VR(Virtual Reality)環境のための高忠実な人間の顔レンダリングを生成する。
本稿では,コーデックアバターモデルに適した効率的な後トレーニング量子化(PTQ)手法を提案する。
エッジVRプラットフォーム上でPCA推論を高速化するフルスタック最適化フレームワークであるESCAを紹介する。
論文 参考訳(メタデータ) (2025-10-27T02:31:20Z) - Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - Being-M0.5: A Real-Time Controllable Vision-Language-Motion Model [67.8026841949812]
being-M0.5は、複数のモーション生成タスクのパフォーマンスを実現する、初めてのリアルタイムで制御可能な視覚言語-モーションモデルである。
私たちのアプローチは、これまでで最大かつ最も包括的な人間のモーションデータセットであるHuMo100Mをベースにしています。
動作トークン化のための新しい部分認識残差量子化手法を導入し、生成中の個々の身体部分の精密かつきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2025-08-11T11:26:10Z) - Predicting User Grasp Intentions in Virtual Reality [0.0]
対象の種類,サイズ,操作の異なる810の試験において,分類と回帰のアプローチを評価した。
回帰ベースのアプローチはより堅牢なパフォーマンスを示し、タイミングエラーは0.25秒以内、距離エラーは5~20cm程度である。
私たちの結果は、VRインタラクションを強化する機械学習モデルの可能性を強調します。
論文 参考訳(メタデータ) (2025-08-05T15:17:19Z) - Towards Consumer-Grade Cybersickness Prediction: Multi-Model Alignment for Real-Time Vision-Only Inference [3.4667973471411853]
サイバーシックネスは没入型バーチャルリアリティ(VR)の普及の大きな障害である
我々は、パーソナライズされたサイバーシックネス予測のためのスケーラブルでデプロイ可能なフレームワークを提案する。
当社のフレームワークは,コンシューマレベルのVRプラットフォームとの統合に理想的なリアルタイムアプリケーションをサポートしています。
論文 参考訳(メタデータ) (2025-01-02T11:41:43Z) - DISTA: Denoising Spiking Transformer with intrinsic plasticity and
spatiotemporal attention [3.758294848902233]
固有塑性とテンポラルアテンションを有するデノナイジングスパイキングトランスであるdisTAについて紹介する。
ニューロンの計算能力の最大化、特に視覚応用のために設計されている。
DISTAは、わずか6つの時間ステップで、いくつかの静的画像およびダイナミックモーフィックデータセットにおいて、顕著なトップ1の精度を達成する。
論文 参考訳(メタデータ) (2023-11-15T21:09:08Z) - Robust Egocentric Photo-realistic Facial Expression Transfer for Virtual
Reality [68.18446501943585]
ソーシャルな存在は、バーチャルリアリティー(VR)におけるデジタル人間による次世代コミュニケーションシステムを支える
最高の3DビデオリアルVRアバターは、人固有の(PS)モデルに依存します。
本稿では,エンドツーエンドのマルチアイデンティティアーキテクチャを提案することで,これらの制限を克服する。
論文 参考訳(メタデータ) (2021-04-10T15:48:53Z) - TimeConvNets: A Deep Time Windowed Convolution Neural Network Design for
Real-time Video Facial Expression Recognition [93.0013343535411]
本研究では、リアルタイムな映像表情認識を目的とした、新しい時間窓付き畳み込みニューラルネットワーク設計(TimeConvNets)について検討する。
我々は,TimeConvNetsが表情の過度なニュアンスを捕捉し,低い推論時間を維持しながら分類精度を高めることができることを示した。
論文 参考訳(メタデータ) (2020-03-03T20:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。