Fugu-MT 論文翻訳(概要): UniTalk: Towards Universal Active Speaker Detection in Real World Scenarios

論文の概要: UniTalk: Towards Universal Active Speaker Detection in Real World Scenarios

arxiv url: http://arxiv.org/abs/2505.21954v1
Date: Wed, 28 May 2025 04:08:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.406836
Title: UniTalk: Towards Universal Active Speaker Detection in Real World Scenarios
Title（参考訳）: UniTalk: 現実シナリオにおけるユニバーサルアクティブ話者検出を目指して
Authors: Le Thien Phuc Nguyen, Zhuoran Yu, Khoa Quang Nhat Cao, Yuwei Guo, Tu Ho Manh Pham, Tuan Tai Nguyen, Toan Ngo Duc Vo, Lucas Poon, Soochahn Lee, Yong Jae Lee,
Abstract要約: アクティブな話者検出のタスクに特化して設計された新しいデータセットであるUniTalkを提案する。 UniTalkは、多様で困難な現実世界の状況に特化している。ビデオは44.5時間以上、フレームレベルのアクティブな話者アノテーションが48,693の話者IDにまたがっている。
参考スコア（独自算出の注目度）: 22.15198429228792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present UniTalk, a novel dataset specifically designed for the task of active speaker detection, emphasizing challenging scenarios to enhance model generalization. Unlike previously established benchmarks such as AVA, which predominantly features old movies and thus exhibits significant domain gaps, UniTalk focuses explicitly on diverse and difficult real-world conditions. These include underrepresented languages, noisy backgrounds, and crowded scenes - such as multiple visible speakers speaking concurrently or in overlapping turns. It contains over 44.5 hours of video with frame-level active speaker annotations across 48,693 speaking identities, and spans a broad range of video types that reflect real-world conditions. Through rigorous evaluation, we show that state-of-the-art models, while achieving nearly perfect scores on AVA, fail to reach saturation on UniTalk, suggesting that the ASD task remains far from solved under realistic conditions. Nevertheless, models trained on UniTalk demonstrate stronger generalization to modern "in-the-wild" datasets like Talkies and ASW, as well as to AVA. UniTalk thus establishes a new benchmark for active speaker detection, providing researchers with a valuable resource for developing and evaluating versatile and resilient models. Dataset: https://huggingface.co/datasets/plnguyen2908/UniTalk-ASD Code: https://github.com/plnguyen2908/UniTalk-ASD-code
Abstract（参考訳）: モデル一般化を促進するための難解なシナリオを強調し, アクティブな話者検出作業に特化して設計された新しいデータセットUniTalkを提案する。旧来の映画を主に特徴とするAVAのような既存のベンチマークとは異なり、UniTalkは多様で困難な現実世界の条件に特化している。あまり表現されていない言語、騒々しい背景、複数の可視話者が同時に話す、あるいは重複するターンなど、混み合ったシーンが含まれる。ビデオは44.5時間以上、フレームレベルのアクティブな話者アノテーションが48,693件あり、現実世界の状況を反映した幅広い種類のビデオがある。厳密な評価により、最先端のモデルでは、AVAでほぼ完璧なスコアを得られるが、UniTalkでは飽和点に達しず、現実的な条件下でのASDタスクの解決には程遠いことが示唆された。にもかかわらず、UniTalkでトレーニングされたモデルは、TalkiesやASWといった現代の"in-the-wild"データセットやAVAへのより強力な一般化を示している。これにより、UniTalkはアクティブな話者検出のための新しいベンチマークを確立し、研究者に汎用的でレジリエントなモデルの開発と評価に有用なリソースを提供する。 Dataset: https://huggingface.co/datasets/plnguyen2908/UniTalk-ASD Code: https://github.com/plnguyen2908/UniTalk-ASD-code

関連論文リスト

VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文参考訳（メタデータ） (2025-01-09T04:30:12Z)
Late fusion ensembles for speech recognition on diverse input audio representations [0.0]
音声音声の多種多様な表現について検討し、E-Branchformerモデルの後期融合アンサンブルの性能に与える影響について検討する。我々は、同等のテクニックでトレーニングされた最先端のモデルに対して、1%から14%$の改善が依然として達成可能であることを示す。
論文参考訳（メタデータ） (2024-12-01T10:19:24Z)
Aligning and Prompting Everything All at Once for Universal Visual Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。 APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。 160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文参考訳（メタデータ） (2023-12-04T18:59:50Z)
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文参考訳（メタデータ） (2023-09-19T17:35:16Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文参考訳（メタデータ） (2022-11-23T18:21:09Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
ASR4REAL: An extended benchmark for speech models [19.348785785921446]
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
論文参考訳（メタデータ） (2021-10-16T14:34:25Z)
UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文参考訳（メタデータ） (2021-08-05T13:25:44Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。