論文の概要: SpeakingFaces: A Large-Scale Multimodal Dataset of Voice Commands with
Visual and Thermal Video Streams
- arxiv url: http://arxiv.org/abs/2012.02961v3
- Date: Sat, 1 May 2021 05:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 17:39:39.223895
- Title: SpeakingFaces: A Large-Scale Multimodal Dataset of Voice Commands with
Visual and Thermal Video Streams
- Title(参考訳): speakfaces:ビジュアルおよびサーマルビデオストリームを備えた音声コマンドの大規模マルチモーダルデータセット
- Authors: Madina Abdrakhmanova, Askat Kuzdeuov, Sheikh Jarju, Yerbolat
Khassanov, Michael Lewis and Huseyin Atakan Varol
- Abstract要約: 我々はSpeechFacesを大規模マルチモーダルデータセットとして公開する。
それは、熱、視覚、およびオーディオデータストリームの組み合わせを利用するコンテキストにおける機械学習研究をサポートする。
142名の被験者からデータを収集し、13,000件以上の同期データを得た。
- 参考スコア(独自算出の注目度): 4.601375594533309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SpeakingFaces as a publicly-available large-scale multimodal
dataset developed to support machine learning research in contexts that utilize
a combination of thermal, visual, and audio data streams; examples include
human-computer interaction, biometric authentication, recognition systems,
domain transfer, and speech recognition. SpeakingFaces is comprised of aligned
high-resolution thermal and visual spectra image streams of fully-framed faces
synchronized with audio recordings of each subject speaking approximately 100
imperative phrases. Data were collected from 142 subjects, yielding over 13,000
instances of synchronized data (~3.8 TB). For technical validation, we
demonstrate two baseline examples. The first baseline shows classification by
gender, utilizing different combinations of the three data streams in both
clean and noisy environments. The second example consists of thermal-to-visual
facial image translation, as an instance of domain transfer.
- Abstract(参考訳): 本稿では,熱的,視覚的,音声的データストリームの組み合わせを活用したコンテキストにおける機械学習研究を支援するために開発された,公開利用可能な大規模マルチモーダルデータセットとして,スポーキングフェイスを提案する。
スポークフェイスは、約100の命令文を話す各被験者の音声記録と同期したフルフレーム顔の高分解能熱スペクトル画像ストリームで構成されている。
データは142人の被験者から収集され、13,000件以上の同期データ(約3.8tb)が得られた。
技術的検証には2つの基本例を示す。
最初のベースラインは、クリーンでノイズの多い環境で3つのデータストリームの異なる組み合わせを利用して、性別による分類を示す。
第2の例は、ドメイン転送の例として、熱から視覚への顔画像変換である。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? [12.662031101992968]
合成および実世界の両方のデータセットにおける認識精度に対する多重モーダル性の影響について検討する。
音声認識のための補足的モダリティとしてのイメージは、中等度雑音レベルにおいて最大の利益をもたらす。
最も関連性の高い視覚情報が前処理ステップとしてフィルタリングされる場合、合成データセットと実世界のデータセットの両方のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-09-13T22:18:45Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。