論文の概要: AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder
- arxiv url: http://arxiv.org/abs/2010.11884v1
- Date: Thu, 22 Oct 2020 17:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 07:53:27.817876
- Title: AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder
- Title(参考訳): aegis:自閉症スペクトラム障害者の表情認識を支援するリアルタイムマルチモーダル拡張現実コンピュータビジョンシステム
- Authors: James Ren Hou Lee, Alexander Wong
- Abstract要約: 本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
- 参考スコア(独自算出の注目度): 93.0013343535411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to interpret social cues comes naturally for most people, but for
those living with Autism Spectrum Disorder (ASD), some experience a deficiency
in this area. This paper presents the development of a multimodal augmented
reality (AR) system which combines the use of computer vision and deep
convolutional neural networks (CNN) in order to assist individuals with the
detection and interpretation of facial expressions in social settings. The
proposed system, which we call AEGIS (Augmented-reality Expression Guided
Interpretation System), is an assistive technology deployable on a variety of
user devices including tablets, smartphones, video conference systems, or
smartglasses, showcasing its extreme flexibility and wide range of use cases,
to allow integration into daily life with ease. Given a streaming video camera
source, each real-world frame is passed into AEGIS, processed for facial
bounding boxes, and then fed into our novel deep convolutional time windowed
neural network (TimeConvNet). We leverage both spatial and temporal information
in order to provide an accurate expression prediction, which is then converted
into its corresponding visualization and drawn on top of the original video
frame. The system runs in real-time, requires minimal set up and is simple to
use. With the use of AEGIS, we can assist individuals living with ASD to learn
to better identify expressions and thus improve their social experiences.
- Abstract(参考訳): 社会的手がかりを解釈する能力は、ほとんどの人にとって自然に現れるが、自閉症スペクトラム障害(asd)の患者には、この領域で不足を経験する者もいる。
本稿では,コンピュータビジョンと深層畳み込みニューラルネットワーク(CNN)を併用したマルチモーダル拡張現実(AR)システムの開発について述べる。
aegis(augmented-reality expression guided interpretation system)と呼ばれるこのシステムは、タブレット、スマートフォン、ビデオ会議システム、スマートグラスなど、さまざまなユーザデバイスにデプロイ可能な補助技術であり、その極端な柔軟性と幅広いユースケースを示し、日常生活への統合を容易にします。
ストリーミングビデオカメラのソースが与えられた後、各現実世界のフレームはAIGISに渡され、顔境界ボックスに処理され、新しい深層畳み込み時間ウインドウニューラルネットワーク(TimeConvNet)に入力される。
時間的情報と時間的情報の両方を利用して正確な表現予測を行い、それに対応する視覚化に変換し、元のビデオフレーム上に描画する。
システムはリアルタイムで動作し、最小限のセットアップが必要で、使いやすい。
AEGISを用いることで、ASDと共に生活している個人が表現をよりよく識別し、社会的体験を改善することができる。
関連論文リスト
- Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - A Contextualized Real-Time Multimodal Emotion Recognition for
Conversational Agents using Graph Convolutional Networks in Reinforcement
Learning [0.800062359410795]
強化学習(conER-GRL)を用いたグラフ畳み込みネットワークを用いた文脈的感情認識のための新しいパラダイムを提案する。
会話は、文脈情報の効果的な抽出のために、発話の小さなグループに分割される。
このシステムは、GRU(Gated Recurrent Units)を用いて、これらの発話群からマルチモーダル特徴を抽出する。
論文 参考訳(メタデータ) (2023-10-24T14:31:17Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z) - EMERSK -- Explainable Multimodal Emotion Recognition with Situational
Knowledge [0.0]
状況知識を用いた説明可能なマルチモーダル感情認識(EMERSK)を提案する。
EMERSKは視覚情報を用いた人間の感情認識と説明のための汎用システムである。
本システムは, 表情, 姿勢, 歩行などの複数のモーダルを柔軟かつモジュラーな方法で処理することができる。
論文 参考訳(メタデータ) (2023-06-14T17:52:37Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Facial Expressions Recognition with Convolutional Neural Networks [0.0]
ニューラルネットワークを利用して表情認識システム(FER)を実装する。
我々は、追加のトレーニングデータを用いることなく、FER2013データセット上で、最先端のシングルネットワーク精度の70.10%を実証する。
論文 参考訳(メタデータ) (2021-07-19T06:41:00Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - TimeConvNets: A Deep Time Windowed Convolution Neural Network Design for
Real-time Video Facial Expression Recognition [93.0013343535411]
本研究では、リアルタイムな映像表情認識を目的とした、新しい時間窓付き畳み込みニューラルネットワーク設計(TimeConvNets)について検討する。
我々は,TimeConvNetsが表情の過度なニュアンスを捕捉し,低い推論時間を維持しながら分類精度を高めることができることを示した。
論文 参考訳(メタデータ) (2020-03-03T20:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。