論文の概要: Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection
- arxiv url: http://arxiv.org/abs/2212.00539v1
- Date: Thu, 1 Dec 2022 14:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 17:06:10.515998
- Title: Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection
- Title(参考訳): アクティブ話者検出のための視聴覚活動誘導型クロスモーダルアイデンティティアソシエーション
- Authors: Rahul Sharma and Shrikanth Narayanan
- Abstract要約: ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
アクティブな話者検出のための音声・視覚活動と話者のクロスモーダル・アイデンティティ・アソシエーションを導くための新しい教師なしフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.28070242751129
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active speaker detection in videos addresses associating a source face,
visible in the video frames, with the underlying speech in the audio modality.
The two primary sources of information to derive such a speech-face
relationship are i) visual activity and its interaction with the speech signal
and ii) co-occurrences of speakers' identities across modalities in the form of
face and speech. The two approaches have their limitations: the audio-visual
activity models get confused with other frequently occurring vocal activities,
such as laughing and chewing, while the speakers' identity-based methods are
limited to videos having enough disambiguating information to establish a
speech-face association. Since the two approaches are independent, we
investigate their complementary nature in this work. We propose a novel
unsupervised framework to guide the speakers' cross-modal identity association
with the audio-visual activity for active speaker detection. Through
experiments on entertainment media videos from two benchmark datasets, the AVA
active speaker (movies) and Visual Person Clustering Dataset (TV shows), we
show that a simple late fusion of the two approaches enhances the active
speaker detection performance.
- Abstract(参考訳): ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
このような対面関係を導出するための2つの主要な情報源は
一 視覚活動及びその音声信号との相互作用
二 顔及び話し言葉の形式における様相をまたいだ話者のアイデンティティの共起
音声・視覚活動モデルと笑い・噛みなどの頻繁な発声活動とが混同されるのに対し、話者のアイデンティティに基づく手法は、音声と顔の関連を確立するのに十分な曖昧な情報を持つビデオに限られる。
2つのアプローチは独立であるため、本研究における相補的な性質について検討する。
本稿では,アクティブな話者検出のための音声・視覚活動と話者のクロスモーダルアイデンティティを関連づける新しい非教師付きフレームワークを提案する。
ava active speaker (movies) と visual person clustering dataset (tv shows) という2つのベンチマークデータセットからのエンタテインメントメディアビデオ実験を通じて,この2つのアプローチの簡易な遅延融合により,アクティブな話者検出性能が向上することを示す。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Unsupervised active speaker detection in media content using cross-modal
information [37.28070242751129]
テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。
音声と顔の話者識別情報を活用し, アクティブな話者検出を音声-顔の割り当てタスクとして定式化する。
最先端の完全教師付き手法に対する競合性能を示す。
論文 参考訳(メタデータ) (2022-09-24T00:51:38Z) - Look Who's Talking: Active Speaker Detection in the Wild [30.22352874520012]
野生におけるアクティブな話者検出のための新しい音声視覚データセットを提案する。
Active Speakers in the Wild (ASW)データセットには、ビデオと、密集した音声活動ラベルを持つ音声セグメントが含まれている。
ビデオから顔トラックを抽出し、VoxConverseのタイムスタンプに基づいてアクティブセグメントをセミオートマチックにアノテートする。
論文 参考訳(メタデータ) (2021-08-17T14:16:56Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。