論文の概要: Look Who's Talking: Active Speaker Detection in the Wild
- arxiv url: http://arxiv.org/abs/2108.07640v1
- Date: Tue, 17 Aug 2021 14:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:05:48.865015
- Title: Look Who's Talking: Active Speaker Detection in the Wild
- Title(参考訳): 誰が話しかけているか: 野生のアクティブな話者検出
- Authors: You Jin Kim, Hee-Soo Heo, Soyeon Choe, Soo-Whan Chung, Yoohwan Kwon,
Bong-Jin Lee, Youngki Kwon, Joon Son Chung
- Abstract要約: 野生におけるアクティブな話者検出のための新しい音声視覚データセットを提案する。
Active Speakers in the Wild (ASW)データセットには、ビデオと、密集した音声活動ラベルを持つ音声セグメントが含まれている。
ビデオから顔トラックを抽出し、VoxConverseのタイムスタンプに基づいてアクティブセグメントをセミオートマチックにアノテートする。
- 参考スコア(独自算出の注目度): 30.22352874520012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a novel audio-visual dataset for active speaker
detection in the wild. A speaker is considered active when his or her face is
visible and the voice is audible simultaneously. Although active speaker
detection is a crucial pre-processing step for many audio-visual tasks, there
is no existing dataset of natural human speech to evaluate the performance of
active speaker detection. We therefore curate the Active Speakers in the Wild
(ASW) dataset which contains videos and co-occurring speech segments with dense
speech activity labels. Videos and timestamps of audible segments are parsed
and adopted from VoxConverse, an existing speaker diarisation dataset that
consists of videos in the wild. Face tracks are extracted from the videos and
active segments are annotated based on the timestamps of VoxConverse in a
semi-automatic way. Two reference systems, a self-supervised system and a fully
supervised one, are evaluated on the dataset to provide the baseline
performances of ASW. Cross-domain evaluation is conducted in order to show the
negative effect of dubbed videos in the training data.
- Abstract(参考訳): 本稿では,野生におけるアクティブ話者検出のための音声・視覚データセットを提案する。
話者は、顔が見え、声が同時に聞こえるときに活動的と考えられる。
能動話者検出は多くの視聴覚タスクにおいて重要な前処理ステップであるが、能動話者検出の性能を評価するための自然人間の音声のデータセットは存在しない。
そこで我々は,高密度な音声活動ラベルを持つビデオと共起音声セグメントを含むASWデータセットをキュレートする。
音声セグメントのビデオとタイムスタンプは、既存の話者ダイアリゼーションデータセットであるVoxConverseから解析され、採用されている。
ビデオから顔トラックを抽出し、VoxConverseのタイムスタンプに基づいてアクティブセグメントを半自動で注釈付けする。
ASWのベースライン性能を提供するために,2つの参照システム,自己教師システムと完全教師システムについて,データセット上で評価を行った。
トレーニングデータにおけるビデオの名前の負の効果を示すために、クロスドメイン評価を行う。
関連論文リスト
- Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。
互いに補完する2つのモダリティの役割を見出した。
今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文 参考訳(メタデータ) (2024-06-01T16:47:07Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection [37.28070242751129]
ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
アクティブな話者検出のための音声・視覚活動と話者のクロスモーダル・アイデンティティ・アソシエーションを導くための新しい教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T14:46:00Z) - Unsupervised active speaker detection in media content using cross-modal
information [37.28070242751129]
テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。
音声と顔の話者識別情報を活用し, アクティブな話者検出を音声-顔の割り当てタスクとして定式化する。
最先端の完全教師付き手法に対する競合性能を示す。
論文 参考訳(メタデータ) (2022-09-24T00:51:38Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。