論文の概要: Unsupervised active speaker detection in media content using cross-modal
information
- arxiv url: http://arxiv.org/abs/2209.11896v1
- Date: Sat, 24 Sep 2022 00:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:10:02.984847
- Title: Unsupervised active speaker detection in media content using cross-modal
information
- Title(参考訳): クロスモーダル情報を用いたメディアコンテンツ中の教師なしアクティブ話者検出
- Authors: Rahul Sharma and Shrikanth Narayanan
- Abstract要約: テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。
音声と顔の話者識別情報を活用し, アクティブな話者検出を音声-顔の割り当てタスクとして定式化する。
最先端の完全教師付き手法に対する競合性能を示す。
- 参考スコア(独自算出の注目度): 37.28070242751129
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a cross-modal unsupervised framework for active speaker detection
in media content such as TV shows and movies. Machine learning advances have
enabled impressive performance in identifying individuals from speech and
facial images. We leverage speaker identity information from speech and faces,
and formulate active speaker detection as a speech-face assignment task such
that the active speaker's face and the underlying speech identify the same
person (character). We express the speech segments in terms of their associated
speaker identity distances, from all other speech segments, to capture a
relative identity structure for the video. Then we assign an active speaker's
face to each speech segment from the concurrently appearing faces such that the
obtained set of active speaker faces displays a similar relative identity
structure. Furthermore, we propose a simple and effective approach to address
speech segments where speakers are present off-screen. We evaluate the proposed
system on three benchmark datasets -- Visual Person Clustering dataset,
AVA-active speaker dataset, and Columbia dataset -- consisting of videos from
entertainment and broadcast media, and show competitive performance to
state-of-the-art fully supervised methods.
- Abstract(参考訳): テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。
機械学習の進歩は、個人を音声や顔画像から識別する際の素晴らしいパフォーマンスを可能にした。
音声と顔からの話者識別情報を活用し、アクティブな話者検出を発話面割り当てタスクとして定式化し、アクティブな話者の顔と基礎となる音声が同一人物(キャラクタ)を識別する。
我々は、ビデオの相対的アイデンティティ構造を捉えるために、他のすべての音声セグメントから、関連する話者識別距離の観点で音声セグメントを表現する。
そして、得られたアクティブ話者の顔が類似した相対的アイデンティティ構造を示すように、同時に現れる顔から各音声セグメントにアクティブ話者の顔を割り当てる。
さらに,話者が画面外に存在する音声セグメントに,シンプルで効果的なアプローチを提案する。
提案システムは,エンターテイメントと放送メディアのビデオからなる3つのベンチマークデータセット – Visual Person Clustering データセット,AVA-active Speaker データセット,Columbia データセット – で評価し,最先端の完全管理手法に対する競合性能を示す。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection [37.28070242751129]
ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
アクティブな話者検出のための音声・視覚活動と話者のクロスモーダル・アイデンティティ・アソシエーションを導くための新しい教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T14:46:00Z) - Using Active Speaker Faces for Diarization in TV shows [37.28070242751129]
アクティブな話者面に顔クラスタリングを行い、最先端の音声ベースダイアリゼーション法と比較して優れた話者ダイアリゼーション性能を示す。
また、適度に高性能なアクティブスピーカーシステムが、オーディオベースのダイアリゼーションシステムより優れていることも観察した。
論文 参考訳(メタデータ) (2022-03-30T00:37:19Z) - Look Who's Talking: Active Speaker Detection in the Wild [30.22352874520012]
野生におけるアクティブな話者検出のための新しい音声視覚データセットを提案する。
Active Speakers in the Wild (ASW)データセットには、ビデオと、密集した音声活動ラベルを持つ音声セグメントが含まれている。
ビデオから顔トラックを抽出し、VoxConverseのタイムスタンプに基づいてアクティブセグメントをセミオートマチックにアノテートする。
論文 参考訳(メタデータ) (2021-08-17T14:16:56Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - FaceFilter: Audio-visual speech separation using still images [41.97445146257419]
本稿では,2つの話者の混在した話者の発話を,ディープ・オーディオ・ビジュアル・音声分離ネットワークを用いて分離することを目的とする。
ビデオクリップの唇の動きや事前登録された話者情報を補助的条件特徴として用いた従来の作品とは異なり、対象話者の単一顔画像を使用する。
論文 参考訳(メタデータ) (2020-05-14T15:42:31Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。