Fugu-MT 論文翻訳(概要): Who Spoke What When? Evaluating Spoken Language Models for Conversational ASR with Semantic and Overlap-Aware Metrics

論文の概要: Who Spoke What When? Evaluating Spoken Language Models for Conversational ASR with Semantic and Overlap-Aware Metrics

arxiv url: http://arxiv.org/abs/2603.22709v1
Date: Tue, 24 Mar 2026 02:01:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.247337
Title: Who Spoke What When? Evaluating Spoken Language Models for Conversational ASR with Semantic and Overlap-Aware Metrics
Title（参考訳）: セマンティック・オーバーラップ対応メトリクスを用いた会話型ASRにおける音声言語モデルの評価
Authors: Naohiro Tawara, Samuele Cornell, Alexander Polok, Marc Delcroix, Lukáš Burget, Shinji Watanabe,
Abstract要約: 音声の重複や遠距離雑音,話者数の変化など,会話の自動音声認識は依然として困難である。近年のLCMベースのシステムは単一話者のベンチマークでは良好に動作するが、マルチ話者設定におけるロバスト性は不明確である。重なり、意味的忠実度、話者数、シングルチャンネルとマルチチャネル入力の4つの軸に沿って、LLMベースのアプローチとモジュラーアプローチを体系的に比較する。
参考スコア（独自算出の注目度）: 99.89493037369071
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conversational automatic speech recognition remains challenging due to overlapping speech, far-field noise, and varying speaker counts. While recent LLM-based systems perform well on single-speaker benchmarks, their robustness in multi-speaker settings is unclear. We systematically compare LLM-based and modular pipeline approaches along four axes: overlap robustness, semantic fidelity, speaker count, and single- versus multi-channel input. To capture meaning-altering errors that conventional metrics miss, we introduce tcpSemER, which extends tcpWER by replacing Levenshtein distance with embedding-based semantic similarity. We further decompose tcpWER into overlapping and non-overlapping components for finer-grained analysis. Experiments across three datasets show that LLM-based systems are competitive in two-speaker settings but degrade as speaker count and overlap increase, whereas modular pipelines remain more robust.
Abstract（参考訳）: 音声の重複や遠距離雑音,話者数の変化など,会話の自動音声認識は依然として困難である。近年のLCMベースのシステムは単一話者のベンチマークでは良好に動作するが、マルチ話者設定における堅牢性は不明確である。重なり合うロバスト性,意味的忠実度,話者数,単一対マルチチャネル入力の4つの軸に沿って,LLMとモジュールパイプラインのアプローチを体系的に比較した。従来のメトリクスが見逃す意味変化の誤りを捉えるために, tcpSemERを導入し, tcpWERを拡張して, Levenshtein距離を埋め込みに基づく意味的類似性に置き換える。さらに tcpWER をオーバーラップ・非オーバーラップ・コンポーネントに分解し, よりきめ細かい解析を行う。 3つのデータセットでの実験では、LLMベースのシステムは2つの話者設定で競合するが、話者数と重なりが増加するにつれて劣化するが、モジュールパイプラインはより堅牢である。

関連論文リスト

Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文参考訳（メタデータ） (2026-01-27T00:55:14Z)
TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文参考訳（メタデータ） (2026-01-11T12:40:07Z)
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。 LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。 SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文参考訳（メタデータ） (2025-06-14T15:26:31Z)
SEAL: Speaker Error Correction using Acoustic-conditioned Large Language Models [15.098665255729507]
音響ダイアリザからLLMへよりきめ細かな情報を提供するための新しい音響条件付け手法を提案する。提案手法は,Fisher,Callhome,RT03-CTSデータセットの話者誤り率を24～43%削減する。
論文参考訳（メタデータ） (2025-01-14T20:24:12Z)
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation [23.895122319920997]
エンド・ツー・エンドおよびマルチタスク・トレーニングモデルを用いて、単一チャンネルのマルチ話者会話STに取り組む。 Speaker-Turn Aware Conversational Speech Translationは、音声認識、音声翻訳、話者のターン検出を組み合わせる。本研究では,本モデルがマルチスピーカ条件で参照システムより優れ,単一スピーカ条件で同等の性能が得られることを示す。
論文参考訳（メタデータ） (2023-11-01T17:55:09Z)
Bi-LSTM Scoring Based Similarity Measurement with Agglomerative Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文参考訳（メタデータ） (2022-05-19T17:20:51Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文参考訳（メタデータ） (2020-05-18T10:31:19Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。