論文の概要: A Cocktail-Party Benchmark: Multi-Modal dataset and Comparative Evaluation Results
- arxiv url: http://arxiv.org/abs/2510.23276v1
- Date: Mon, 27 Oct 2025 12:36:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.548775
- Title: A Cocktail-Party Benchmark: Multi-Modal dataset and Comparative Evaluation Results
- Title(参考訳): Cocktail-Partyベンチマーク:マルチモーダルデータセットと比較評価結果
- Authors: Thai-Binh Nguyen, Katerina Zmolikova, Pingchuan Ma, Ngoc Quan Pham, Christian Fuegen, Alexander Waibel,
- Abstract要約: 第9回CHiMEチャレンジにおいて,マルチモーダルコンテキスト認識(MCoRec)の課題を紹介した。
MCoRecは、録音が説明のない、カジュアルなグループチャットに集中する、自然なマルチパーティの会話をキャプチャする。
このタスクでは、各話者のスピーチを共同で翻訳し、音声・視覚録音から各話者の会話にまとめることにより、「誰がいつ、何、誰と話をするのか?」という質問に答えるシステムが必要である。
- 参考スコア(独自算出の注目度): 62.01871490859886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the task of Multi-Modal Context-Aware Recognition (MCoRec) in the ninth CHiME Challenge, which addresses the cocktail-party problem of overlapping conversations in a single-room setting using audio, visual, and contextual cues. MCoRec captures natural multi-party conversations where the recordings focus on unscripted, casual group chats, leading to extreme speech overlap of up to 100% and highly fragmented conversational turns. The task requires systems to answer the question "Who speaks when, what, and with whom?" by jointly transcribing each speaker's speech and clustering them into their respective conversations from audio-visual recordings. Audio-only baselines exceed 100% word error rate, whereas incorporating visual cues yields substantial 50% improvements, highlighting the importance of multi-modality. In this manuscript, we present the motivation behind the task, outline the data collection process, and report the baseline systems developed for the MCoRec.
- Abstract(参考訳): 第9回CHiMEチャレンジでは,音声,視覚,文脈的手がかりを用いた単一部屋設定において,会話を重畳するカクテルパーティの問題に対処するマルチモーダルコンテキスト認識(MCoRec)の課題を紹介した。
MCoRecは、録音が説明のない、カジュアルなグループチャットに集中する自然なマルチパーティの会話をキャプチャする。
このタスクでは、各話者のスピーチを共同で翻訳し、音声・視覚録音から各話者の会話にまとめることにより、「誰がいつ、何、誰と話をするのか?」という質問に答えるシステムが必要である。
音声のみのベースラインは100%の単語誤り率を超え、視覚的手がかりが組み込まれれば、かなりの50%の改善が得られ、マルチモダリティの重要性が強調される。
本稿では,タスクの背後にあるモチベーションを示し,データ収集プロセスの概要と,MCoRecで開発されたベースラインシステムについて報告する。
関連論文リスト
- Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for
Unsegmented Recordings [87.37967358673252]
第6回CiME音声分離認識チャレンジ(CHiME-6)の開催
この課題は、従来のCHiME-5課題を再考し、遠隔マルチマイクロホン音声のダイアリゼーションと認識の問題をさらに検討する。
本稿では, セグメント化多話者音声認識と非セグメント化多話者音声認識におけるCHiME-6チャレンジのベースライン記述について述べる。
論文 参考訳(メタデータ) (2020-04-20T12:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。