論文の概要: Do We Still Need Audio? Rethinking Speaker Diarization with a Text-Based Approach Using Multiple Prediction Models
- arxiv url: http://arxiv.org/abs/2506.11344v1
- Date: Thu, 12 Jun 2025 22:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.600822
- Title: Do We Still Need Audio? Rethinking Speaker Diarization with a Text-Based Approach Using Multiple Prediction Models
- Title(参考訳): 音声はいまだ必要か? 複数の予測モデルを用いたテキストベースアプローチによる話者ダイアリゼーションの再考
- Authors: Peilin Wu, Jinho D. Choi,
- Abstract要約: 本稿では,対話における文レベルの話者変化検出に着目したテキストベースの手法を用いて,話者ダイアリゼーション(SD)に新たなアプローチを提案する。
SPM(Single Prediction Model)とMPM(Multiple Prediction Model)の2つのモデルが開発され、どちらも話者変化の同定において大幅に改善されている。
- 参考スコア(独自算出の注目度): 10.582167003047058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach to Speaker Diarization (SD) by leveraging text-based methods focused on Sentence-level Speaker Change Detection within dialogues. Unlike audio-based SD systems, which are often challenged by audio quality and speaker similarity, our approach utilizes the dialogue transcript alone. Two models are developed: the Single Prediction Model (SPM) and the Multiple Prediction Model (MPM), both of which demonstrate significant improvements in identifying speaker changes, particularly in short conversations. Our findings, based on a curated dataset encompassing diverse conversational scenarios, reveal that the text-based SD approach, especially the MPM, performs competitively against state-of-the-art audio-based SD systems, with superior performance in short conversational contexts. This paper not only showcases the potential of leveraging linguistic features for SD but also highlights the importance of integrating semantic understanding into SD systems, opening avenues for future research in multimodal and semantic feature-based diarization.
- Abstract(参考訳): 本稿では,対話における文レベルの話者変化検出に着目したテキストベースの手法を用いて,話者ダイアリゼーション(SD)に新たなアプローチを提案する。
音声品質や話者の類似性に悩まされる音声ベースのSDシステムとは違い,本手法では対話書き起こしのみを利用する。
SPM(Single Prediction Model)とMPM(Multiple Prediction Model)の2つのモデルが開発されている。
その結果,テキストベースのSDアプローチ,特にMPMは,最先端の音声ベースのSDシステムと競合して動作し,短時間の会話場面では優れた性能を示した。
本稿では,SDに言語的特徴を活用する可能性を示すだけでなく,意味理解をSDシステムに統合することの重要性を強調し,マルチモーダル・セマンティックな特徴に基づくダイアリゼーションの今後の研究への道を開く。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Speaker Turn Modeling for Dialogue Act Classification [9.124489616470001]
本稿では,対話法(DA)分類のモデル化において,話者間の会話の交替変化を統合することを提案する。
会話中の話者ターンを表現するために,会話不変話者ターン埋め込みを学習する。
本モデルでは,対話内容から意味を抽出し,会話中の話者の交替を考慮に入れた。
論文 参考訳(メタデータ) (2021-09-10T18:36:35Z) - Self- and Pseudo-self-supervised Prediction of Speaker and Key-utterance
for Multi-party Dialogue Reading Comprehension [46.69961067676279]
マルチパーティ対話機械読解(MRC)は,複数の話者が対話を行うため,大きな課題をもたらす。
従来のモデルは、複雑なグラフベースのモジュールを使用して話者情報フローを組み込む方法に重点を置いていた。
本稿では、話者情報の流れを暗黙的にモデル化するために、話者とキー発話における2つの労働自由自助的・疑似自己監督型予測タスクを設計する。
論文 参考訳(メタデータ) (2021-09-08T16:51:41Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。