論文の概要: CineSRD: Leveraging Visual, Acoustic, and Linguistic Cues for Open-World Visual Media Speaker Diarization
- arxiv url: http://arxiv.org/abs/2603.16966v1
- Date: Tue, 17 Mar 2026 09:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.309851
- Title: CineSRD: Leveraging Visual, Acoustic, and Linguistic Cues for Open-World Visual Media Speaker Diarization
- Title(参考訳): CineSRD: オープンワールドなビジュアルメディア話者ダイアリゼーションのための視覚,音響,言語的キューを活用する
- Authors: Liangbin Huang, Xiaohua Liao, Chaoqun Cui, Shijing Wang, Zhaolong Huang, Yanlong Du, Wenji Mao,
- Abstract要約: 話者ダイアリゼーションのための統合型マルチモーダルフレームワークであるCineSRDを提案する。
CineSRDはまず視覚アンカークラスタリングを行い、最初の話者を登録し、次に話者のターン検出のための音声言語モデルを統合する。
我々は、中国語と英語のプログラムを含むビジュアルメディアのための専用の話者ダイアリゼーションベンチマークを構築し、リリースする。
- 参考スコア(独自算出の注目度): 12.092592599602746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional speaker diarization systems have primarily focused on constrained scenarios such as meetings and interviews, where the number of speakers is limited and acoustic conditions are relatively clean. To explore open-world speaker diarization, we extend this task to the visual media domain, encompassing complex audiovisual programs such as films and TV series. This new setting introduces several challenges, including long-form video understanding, a large number of speakers, cross-modal asynchrony between audio and visual cues, and uncontrolled in-the-wild variability. To address these challenges, we propose Cinematic Speaker Registration & Diarization (CineSRD), a unified multimodal framework that leverages visual, acoustic, and linguistic cues from video, speech, and subtitles for speaker annotation. CineSRD first performs visual anchor clustering to register initial speakers and then integrates an audio language model for speaker turn detection, refining annotations and supplementing unregistered off-screen speakers. Furthermore, we construct and release a dedicated speaker diarization benchmark for visual media that includes Chinese and English programs. Experimental results demonstrate that CineSRD achieves superior performance on the proposed benchmark and competitive results on conventional datasets, validating its robustness and generalizability in open-world visual media settings.
- Abstract(参考訳): 従来の話者ダイアリゼーションシステムは、主に会議やインタビューのような制約のあるシナリオに焦点を当てており、話者の数は限られており、音響条件は比較的きれいである。
オープンワールド話者ダイアリゼーションを探求するため,映画やテレビシリーズなどの複雑なオーディオヴィジュアル番組を含む視覚メディア領域にタスクを拡張した。
この新たな設定には、長めのビデオ理解、多数のスピーカー、オーディオと視覚の相互同期、制御不能な帯域内変動など、いくつかの課題が導入されている。
これらの課題に対処するために,ビデオ,音声,サブタイトルからの視覚的,音響的,言語的手がかりを活用する統合マルチモーダルフレームワークであるCinetic Speaker Registration & Diarization (CineSRD)を提案する。
CineSRDはまず視覚アンカークラスタリングを行い、最初の話者を登録し、次に話者のターン検出、アノテーションの修正、登録されていないオフスクリーンスピーカーの補足のためのオーディオ言語モデルを統合する。
さらに、中国語と英語のプログラムを含むビジュアルメディアのための専用の話者ダイアリゼーションベンチマークを構築し、リリースする。
実験により、CineSRDは従来のデータセットのベンチマークと競合する結果よりも優れた性能を示し、オープンワールドのビジュアルメディア設定における堅牢性と一般化性を検証した。
関連論文リスト
- DiaDem: Advancing Dialogue Descriptions in Audiovisual Video Captioning for Multimodal Large Language Models [42.93374962900657]
より正確な対話記述でキャプションを生成することができる強力な音声映像キャプションモデルであるDiaDemを提案する。
まず、SFTのための高品質なデータセットを合成し、さらに対話記述をさらに強化するために、難解な2段階のGRPO戦略を用いる。
DiaDemBenchの大規模な実験によると、商用モデルでさえも、対話対応キャプションの改善の余地がかなり残っている。
論文 参考訳(メタデータ) (2026-01-27T06:55:21Z) - TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation [76.48551690189406]
本研究では,マルチショット音声ビデオ生成を支援する大規模データセットであるTalkCutsを提案する。
TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを備えた、500時間以上の高品質な人間の音声ビデオクリップを提供する。
このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
論文 参考訳(メタデータ) (2025-10-08T17:16:09Z) - SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models [20.73877943980867]
話者ダイアリゼーションと認識タスクは、音声クリップ内で「誰がいつ何を話したか」を予測することを目的としている。
既存のSDRシステムは一般的に、話者ダイアリゼーション(SD)と自動音声認識(ASR)を組み合わせたカスケードフレームワークを採用している。
SpeakerLMは、SDとASRをエンドツーエンドで共同で実行するSDR用の統合マルチモーダル大言語モデルである。
論文 参考訳(メタデータ) (2025-08-08T15:04:00Z) - Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - End-to-End Single-Channel Speaker-Turn Aware Conversational Speech
Translation [23.895122319920997]
エンド・ツー・エンドおよびマルチタスク・トレーニングモデルを用いて、単一チャンネルのマルチ話者会話STに取り組む。
Speaker-Turn Aware Conversational Speech Translationは、音声認識、音声翻訳、話者のターン検出を組み合わせる。
本研究では,本モデルがマルチスピーカ条件で参照システムより優れ,単一スピーカ条件で同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-01T17:55:09Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。