論文の概要: Spot the conversation: speaker diarisation in the wild
- arxiv url: http://arxiv.org/abs/2007.01216v3
- Date: Sun, 15 Aug 2021 04:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:53:12.609768
- Title: Spot the conversation: speaker diarisation in the wild
- Title(参考訳): 会話のスポット:野生の話者ダイアリゼーション
- Authors: Joon Son Chung, Jaesung Huh, Arsha Nagrani, Triantafyllos Afouras,
Andrew Zisserman
- Abstract要約: そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
- 参考スコア(独自算出の注目度): 108.61222789195209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is speaker diarisation of videos collected 'in the
wild'. We make three key contributions. First, we propose an automatic
audio-visual diarisation method for YouTube videos. Our method consists of
active speaker detection using audio-visual methods and speaker verification
using self-enrolled speaker models. Second, we integrate our method into a
semi-automatic dataset creation pipeline which significantly reduces the number
of hours required to annotate videos with diarisation labels. Finally, we use
this pipeline to create a large-scale diarisation dataset called VoxConverse,
collected from 'in the wild' videos, which we will release publicly to the
research community. Our dataset consists of overlapping speech, a large and
diverse speaker pool, and challenging background conditions.
- Abstract(参考訳): 本論文の目的は,「野生」で収集したビデオの話者ダイアリゼーションである。
私たちは3つの重要な貢献をします。
まず,YouTubeビデオの自動視覚ダイアリゼーション手法を提案する。
本手法は,音声視覚を用いた能動的話者検出と,自己登録話者モデルを用いた話者検証からなる。
第2に,本手法を半自動データセット生成パイプラインに統合することにより,ビデオにダイアリゼーションラベルを付加する時間を大幅に短縮する。
最後に、このパイプラインを使用して、voxconverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
我々のデータセットは、重なり合う音声、大きく多様な話者プール、挑戦的な背景条件から構成される。
関連論文リスト
- Audio-Visual Talker Localization in Video for Spatial Sound Reproduction [3.2472293599354596]
本研究では,ビデオ中のアクティブ話者を検出し,検出する。
互いに補完する2つのモダリティの役割を見出した。
今後の調査では、ノイズの多い高残響環境下でのモデルの堅牢性を評価する予定である。
論文 参考訳(メタデータ) (2024-06-01T16:47:07Z) - REWIND Dataset: Privacy-preserving Speaking Status Segmentation from
Multimodal Body Movement Signals in the Wild [14.5263556841263]
プロフェッショナルなネットワークイベントにおいて,33人の被験者による高品質な個人音声記録を備えた,初めて公開されているマルチモーダルデータセットを提示する。
いずれの場合も、従来のデータセットでは利用できない時間分解能である音声から抽出した20Hzのバイナリ音声のステータス信号を予測する。
論文 参考訳(メタデータ) (2024-03-02T15:14:58Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Look Who's Talking: Active Speaker Detection in the Wild [30.22352874520012]
野生におけるアクティブな話者検出のための新しい音声視覚データセットを提案する。
Active Speakers in the Wild (ASW)データセットには、ビデオと、密集した音声活動ラベルを持つ音声セグメントが含まれている。
ビデオから顔トラックを抽出し、VoxConverseのタイムスタンプに基づいてアクティブセグメントをセミオートマチックにアノテートする。
論文 参考訳(メタデータ) (2021-08-17T14:16:56Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。