論文の概要: UniTalk: Towards Universal Active Speaker Detection in Real World Scenarios
- arxiv url: http://arxiv.org/abs/2505.21954v1
- Date: Wed, 28 May 2025 04:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.406836
- Title: UniTalk: Towards Universal Active Speaker Detection in Real World Scenarios
- Title(参考訳): UniTalk: 現実シナリオにおけるユニバーサルアクティブ話者検出を目指して
- Authors: Le Thien Phuc Nguyen, Zhuoran Yu, Khoa Quang Nhat Cao, Yuwei Guo, Tu Ho Manh Pham, Tuan Tai Nguyen, Toan Ngo Duc Vo, Lucas Poon, Soochahn Lee, Yong Jae Lee,
- Abstract要約: アクティブな話者検出のタスクに特化して設計された新しいデータセットであるUniTalkを提案する。
UniTalkは、多様で困難な現実世界の状況に特化している。
ビデオは44.5時間以上、フレームレベルのアクティブな話者アノテーションが48,693の話者IDにまたがっている。
- 参考スコア(独自算出の注目度): 22.15198429228792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UniTalk, a novel dataset specifically designed for the task of active speaker detection, emphasizing challenging scenarios to enhance model generalization. Unlike previously established benchmarks such as AVA, which predominantly features old movies and thus exhibits significant domain gaps, UniTalk focuses explicitly on diverse and difficult real-world conditions. These include underrepresented languages, noisy backgrounds, and crowded scenes - such as multiple visible speakers speaking concurrently or in overlapping turns. It contains over 44.5 hours of video with frame-level active speaker annotations across 48,693 speaking identities, and spans a broad range of video types that reflect real-world conditions. Through rigorous evaluation, we show that state-of-the-art models, while achieving nearly perfect scores on AVA, fail to reach saturation on UniTalk, suggesting that the ASD task remains far from solved under realistic conditions. Nevertheless, models trained on UniTalk demonstrate stronger generalization to modern "in-the-wild" datasets like Talkies and ASW, as well as to AVA. UniTalk thus establishes a new benchmark for active speaker detection, providing researchers with a valuable resource for developing and evaluating versatile and resilient models. Dataset: https://huggingface.co/datasets/plnguyen2908/UniTalk-ASD Code: https://github.com/plnguyen2908/UniTalk-ASD-code
- Abstract(参考訳): モデル一般化を促進するための難解なシナリオを強調し, アクティブな話者検出作業に特化して設計された新しいデータセットUniTalkを提案する。
旧来の映画を主に特徴とするAVAのような既存のベンチマークとは異なり、UniTalkは多様で困難な現実世界の条件に特化している。
あまり表現されていない言語、騒々しい背景、複数の可視話者が同時に話す、あるいは重複するターンなど、混み合ったシーンが含まれる。
ビデオは44.5時間以上、フレームレベルのアクティブな話者アノテーションが48,693件あり、現実世界の状況を反映した幅広い種類のビデオがある。
厳密な評価により、最先端のモデルでは、AVAでほぼ完璧なスコアを得られるが、UniTalkでは飽和点に達しず、現実的な条件下でのASDタスクの解決には程遠いことが示唆された。
にもかかわらず、UniTalkでトレーニングされたモデルは、TalkiesやASWといった現代の"in-the-wild"データセットやAVAへのより強力な一般化を示している。
これにより、UniTalkはアクティブな話者検出のための新しいベンチマークを確立し、研究者に汎用的でレジリエントなモデルの開発と評価に有用なリソースを提供する。
Dataset: https://huggingface.co/datasets/plnguyen2908/UniTalk-ASD Code: https://github.com/plnguyen2908/UniTalk-ASD-code
関連論文リスト
- VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。