論文の概要: AVA-AVD: Audio-visual Speaker Diarization in the Wild
- arxiv url: http://arxiv.org/abs/2111.14448v1
- Date: Mon, 29 Nov 2021 11:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 00:39:29.811288
- Title: AVA-AVD: Audio-visual Speaker Diarization in the Wild
- Title(参考訳): AVA-AVD:野生におけるオーディオ・ビジュアル話者ダイアリゼーション
- Authors: Eric Zhongcong Xu, Zeyang Song, Chao Feng, Mang Ye, Mike Zheng Shou
- Abstract要約: オフスクリーンとオンスクリーンの話者を一緒に扱うための新しいAVR-Netを提案する。
提案手法は,最先端の手法に勝るだけでなく,オフスクリーン話者の比率が変化するほど頑健である。
- 参考スコア(独自算出の注目度): 26.97787596025907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual speaker diarization aims at detecting ``who spoken when`` using
both auditory and visual signals. Existing audio-visual diarization datasets
are mainly focused on indoor environments like meeting rooms or news studios,
which are quite different from in-the-wild videos in many scenarios such as
movies, documentaries, and audience sitcoms. To create a testbed that can
effectively compare diarization methods on videos in the wild, we annotate the
speaker diarization labels on the AVA movie dataset and create a new benchmark
called AVA-AVD. This benchmark is challenging due to the diverse scenes,
complicated acoustic conditions, and completely off-screen speakers. Yet, how
to deal with off-screen and on-screen speakers together still remains a
critical challenge. To overcome it, we propose a novel Audio-Visual Relation
Network (AVR-Net) which introduces an effective modality mask to capture
discriminative information based on visibility. Experiments have shown that our
method not only can outperform state-of-the-art methods but also is more robust
as varying the ratio of off-screen speakers. Ablation studies demonstrate the
advantages of the proposed AVR-Net and especially the modality mask on
diarization. Our data and code will be made publicly available.
- Abstract(参考訳): 音声-視覚的話者ダイアリゼーションは,聴覚信号と視覚信号の両方を用いて発話した音を検出することを目的としている。
既存の音声-視覚のダイアリゼーションデータセットは、主に会議室やニューススタジオのような屋内環境に焦点を当てており、映画、ドキュメンタリー、オーディエンスシットコムといった多くのシナリオにおける、現在進行中のビデオとはかなり異なる。
野生の動画のダイアリゼーション手法を効果的に比較できるテストベッドを作成するために、AVA映画データセット上の話者ダイアリゼーションラベルに注釈を付け、AVA-AVDと呼ばれる新しいベンチマークを作成する。
このベンチマークは、さまざまなシーン、複雑な音響条件、完全にスクリーン外のスピーカーのために難しい。
しかし、オフスクリーンとオンスクリーンのスピーカーを一緒に扱う方法はまだ重要な課題だ。
そこで本研究では,視認性に基づいて識別情報をキャプチャする効果的なモダリティマスクを導入する新しい音声・視覚関連ネットワーク(avr-net)を提案する。
実験により,本手法は最先端の手法に勝るだけでなく,オフスクリーン話者の比率が変化するほど頑健であることがわかった。
アブレーション研究は、提案されたavr-net、特にダイアリゼーションにおけるモダリティマスクの利点を示している。
私たちのデータとコードは公開されます。
関連論文リスト
- SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model [35.60147467774199]
SAV-SEは、同期ビデオからのリッチな文脈情報を、ノイズの種類を示す補助的手がかりとして使うための最初の提案である。
我々の知る限り、これは、音声強調性能を向上させるために、同期ビデオからリッチな文脈情報を補助的手がかりとして使用する最初の提案である。
論文 参考訳(メタデータ) (2024-11-12T12:23:41Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT [37.343431783936126]
本稿では,音声-視覚的話者表現学習のための自己教師付き事前学習について検討する。
音声を入力として、話者の口面積を示す視覚ストリームを使用する。
我々は,事前学習の有効性と視覚的モダリティを検証した広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-15T04:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。