論文の概要: Using Active Speaker Faces for Diarization in TV shows
- arxiv url: http://arxiv.org/abs/2203.15961v1
- Date: Wed, 30 Mar 2022 00:37:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 03:25:24.999287
- Title: Using Active Speaker Faces for Diarization in TV shows
- Title(参考訳): 能動型話者顔を用いたテレビ番組のダイアリゼーション
- Authors: Rahul Sharma and Shrikanth Narayanan
- Abstract要約: アクティブな話者面に顔クラスタリングを行い、最先端の音声ベースダイアリゼーション法と比較して優れた話者ダイアリゼーション性能を示す。
また、適度に高性能なアクティブスピーカーシステムが、オーディオベースのダイアリゼーションシステムより優れていることも観察した。
- 参考スコア(独自算出の注目度): 37.28070242751129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker diarization is one of the critical components of computational media
intelligence as it enables a character-level analysis of story portrayals and
media content understanding. Automated audio-based speaker diarization of
entertainment media poses challenges due to the diverse acoustic conditions
present in media content, be it background music, overlapping speakers, or
sound effects. At the same time, speaking faces in the visual modality provide
complementary information and not prone to the errors seen in the audio
modality. In this paper, we address the problem of speaker diarization in TV
shows using the active speaker faces. We perform face clustering on the active
speaker faces and show superior speaker diarization performance compared to the
state-of-the-art audio-based diarization methods. We additionally report a
systematic analysis of the impact of active speaker face detection quality on
the diarization performance. We also observe that a moderately well-performing
active speaker system could outperform the audio-based diarization systems.
- Abstract(参考訳): 話者ダイアリゼーションは、物語の描写とメディアコンテンツ理解のキャラクタレベル分析を可能にするため、計算メディアインテリジェンスの重要な構成要素の1つである。
エンターテイメントメディアの自動音声ベースの話者ダイアリゼーションは、背景音楽、重複する話者、音響効果など、メディアコンテンツに存在する様々な音響条件が問題となる。
同時に、視覚的モダリティにおける発話顔は相補的な情報を提供し、オーディオ的モダリティに見られる誤りを生じさせない。
本稿では,アクティブな話者顔を用いたテレビ番組における話者ダイアリゼーションの問題に対処する。
アクティブな話者面に顔クラスタリングを行い、最先端の音声ベースダイアリゼーション法と比較して優れた話者ダイアリゼーション性能を示す。
また,アクティブな話者顔検出品質がダイアリゼーション性能に与える影響を体系的に分析した。
また、適度に高性能なアクティブな話者システムは、オーディオベースのダイアリゼーションシステムよりも優れています。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Audio-Visual Activity Guided Cross-Modal Identity Association for Active
Speaker Detection [37.28070242751129]
ビデオ内のアクティブな話者検出は、ビデオフレームで見える元顔と、音声モダリティの基盤となる音声とを関連付ける。
アクティブな話者検出のための音声・視覚活動と話者のクロスモーダル・アイデンティティ・アソシエーションを導くための新しい教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T14:46:00Z) - Unsupervised active speaker detection in media content using cross-modal
information [37.28070242751129]
テレビ番組や映画などのメディアコンテンツにおけるアクティブな話者検出のためのクロスモーダルな教師なしフレームワークを提案する。
音声と顔の話者識別情報を活用し, アクティブな話者検出を音声-顔の割り当てタスクとして定式化する。
最先端の完全教師付き手法に対する競合性能を示す。
論文 参考訳(メタデータ) (2022-09-24T00:51:38Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - The Right to Talk: An Audio-Visual Transformer Approach [27.71444773878775]
本研究は,複数話者会話ビデオの音声および視覚チャネルにおける主話者のローカライゼーションと強調を行うために,新たなオーディオ・ビジュアル・トランスフォーマーアプローチを導入する。
我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。
論文 参考訳(メタデータ) (2021-08-06T18:04:24Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。