論文の概要: The VVAD-LRS3 Dataset for Visual Voice Activity Detection
- arxiv url: http://arxiv.org/abs/2109.13789v1
- Date: Tue, 28 Sep 2021 15:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:38:04.322276
- Title: The VVAD-LRS3 Dataset for Visual Voice Activity Detection
- Title(参考訳): 視覚活動検出のためのVVAD-LRS3データセット
- Authors: Adrian Lubitz and Matias Valdenegro-Toro and Frank Kirchner
- Abstract要約: 視覚的音声活動検出(VVAD)は、カメラの視覚的入力に応じて、人が話しているか否かを検出する。
VVAD-LRS3データセットは44K以上のサンプルを含み、次の競合データセット(WildVVAD)の3倍以上である。
顔画像上の畳み込みニューラルネットワーク長短記憶(CNN LSTM)では、テストセットで92%の精度が達成された。
- 参考スコア(独自算出の注目度): 4.254099382808598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots are becoming everyday devices, increasing their interaction with
humans. To make human-machine interaction more natural, cognitive features like
Visual Voice Activity Detection (VVAD), which can detect whether a person is
speaking or not, given visual input of a camera, need to be implemented. Neural
networks are state of the art for tasks in Image Processing, Time Series
Prediction, Natural Language Processing and other domains. Those Networks
require large quantities of labeled data. Currently there are not many datasets
for the task of VVAD. In this work we created a large scale dataset called the
VVAD-LRS3 dataset, derived by automatic annotations from the LRS3 dataset. The
VVAD-LRS3 dataset contains over 44K samples, over three times the next
competitive dataset (WildVVAD). We evaluate different baselines on four kinds
of features: facial and lip images, and facial and lip landmark features. With
a Convolutional Neural Network Long Short Term Memory (CNN LSTM) on facial
images an accuracy of 92% was reached on the test set. A study with humans
showed that they reach an accuracy of 87.93% on the test set.
- Abstract(参考訳): ロボットは日常的なデバイスになりつつある。
人間と機械の対話をより自然にするために、カメラの視覚入力によって、人が話しているかどうかを検知できる視覚音声アクティビティ検出(vvad)のような認知機能を実装する必要がある。
ニューラルネットワークは、画像処理、時系列予測、自然言語処理、その他の領域におけるタスクの最先端技術である。
これらのネットワークは大量のラベル付きデータを必要とする。
現在、VVADのタスクのためのデータセットは多くありません。
この研究で我々は、RS3データセットから自動アノテーションを派生したVVAD-LRS3データセットと呼ばれる大規模なデータセットを作成しました。
VVAD-LRS3データセットは44K以上のサンプルを含み、次の競合データセット(WildVVAD)の3倍以上である。
顔と唇の画像, 顔と唇のランドマーク特徴の4種類の特徴について, ベースラインの評価を行った。
顔画像上の畳み込みニューラルネットワーク長短記憶(CNN LSTM)では、テストセットで92%の精度が達成された。
人間による研究では、テストセットの精度は87.93%に達した。
関連論文リスト
- DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - FT-HID: A Large Scale RGB-D Dataset for First and Third Person Human
Interaction Analysis [34.03980813525517]
我々は、視覚対応の大規模ヒューマンインタラクションデータセット、すなわちFT-HIDデータセットにコントリビュートする。
FT-HIDは、第一人物と第三人物の視力のペアのサンプルを含む。
本稿では,骨格配列に対する新しい多視点インタラクション機構と,第1者および第3者ビジョンのための共同学習型マルチストリームフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-21T07:24:15Z) - A Wireless-Vision Dataset for Privacy Preserving Human Activity
Recognition [53.41825941088989]
アクティビティ認識の堅牢性を改善するため,WiNN(WiFi-based and video-based neural network)が提案されている。
以上の結果から,WiViデータセットは一次需要を満足し,パイプライン内の3つのブランチはすべて,80%以上のアクティビティ認識精度を維持していることがわかった。
論文 参考訳(メタデータ) (2022-05-24T10:49:11Z) - A large scale multi-view RGBD visual affordance learning dataset [4.3773754388936625]
大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
いくつかの最先端のディープラーニングネットワークを,それぞれが可視性認識とセグメンテーションタスクのために評価する。
論文 参考訳(メタデータ) (2022-03-26T14:31:35Z) - Overcoming the Domain Gap in Neural Action Representations [60.47807856873544]
3Dポーズデータは、手動で介入することなく、マルチビュービデオシーケンスから確実に抽出できる。
本稿では,ニューラルアクション表現の符号化を,ニューラルアクションと行動拡張のセットと共に導くために使用することを提案する。
ドメインギャップを減らすために、トレーニングの間、同様の行動をしているように見える動物間で神経と行動のデータを取り替える。
論文 参考訳(メタデータ) (2021-12-02T12:45:46Z) - Dataset for eye-tracking tasks [0.0]
本稿では、視線追跡タスクのための畳み込みニューラルネットワークのカスタムモデルのトレーニングに適したデータセットを提案する。
このデータセットは1万枚の眼画像を416ピクセルから416ピクセルに拡張している。
この原稿は、視線追跡装置用のデータセットを作成するためのガイドとみなすことができる。
論文 参考訳(メタデータ) (2021-06-01T23:54:23Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Surgical Mask Detection with Convolutional Neural Networks and Data
Augmentations on Spectrograms [8.747840760772268]
人間の声のサンプルにおける手術用マスク検出の2値分類タスクに対するデータ拡張の効果を示す。
結果、ComParEのベースラインのほとんどがパフォーマンスに優れていたことが判明した。
論文 参考訳(メタデータ) (2020-08-11T09:02:47Z) - Emotion Recognition on large video dataset based on Convolutional
Feature Extractor and Recurrent Neural Network [0.2855485723554975]
我々のモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて、ビデオデータ上での次元的感情を予測する。
実験は、最新のAff-Wild2データベースを含む、公開データセットで実施されている。
論文 参考訳(メタデータ) (2020-06-19T14:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。