Fugu-MT 論文翻訳(概要): A Hierarchical End-of-Turn Model with Primary Speaker Segmentation for Real-Time Conversational AI

論文の概要: A Hierarchical End-of-Turn Model with Primary Speaker Segmentation for Real-Time Conversational AI

arxiv url: http://arxiv.org/abs/2603.13379v1
Date: Tue, 10 Mar 2026 21:17:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.140743
Title: A Hierarchical End-of-Turn Model with Primary Speaker Segmentation for Real-Time Conversational AI
Title（参考訳）: 実時間会話型AIのための一次話者分割を用いた階層型終局モデル
Authors: Karim Helwani, Hoang Do, James Luan, Sriram Srinivasan,
Abstract要約: 音声ベースの会話型AIのフロントエンドをリアルタイムに提供し、2話者シナリオでの自然なターンテイクを可能にする。マルチスピーカー環境においてロバストに動作するために、システムはメインユーザーを継続的に識別し追跡する。
参考スコア（独自算出の注目度）: 3.995809098639418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a real-time front-end for voice-based conversational AI to enable natural turn-taking in two-speaker scenarios by combining primary speaker segmentation with hierarchical End-of-Turn (EOT) detection. To operate robustly in multi-speaker environments, the system continuously identifies and tracks the primary user, ensuring that downstream EOT decisions are not confounded by background conversations. The tracked activity segments are fed to a hierarchical, causal EOT model that predicts the immediate conversational state by independently analyzing per-speaker speech features from both the primary speaker and the bot. Simultaneously, the model anticipates near-future states ($t{+}10/20/30$\,ms) through probabilistic predictions that are aware of the conversation partner's speech. Task-specific knowledge distillation compresses wav2vec~2.0 representations (768\,D) into a compact MFCC-based student (32\,D) for efficient deployment. The system achieves 82\% multi-class frame-level F1 and 70.6\% F1 on Backchannel detection, with 69.3\% F1 on a binary Final vs.\ Others task. On an end-to-end turn-detection benchmark, our model reaches 87.7\% recall vs.\ 58.9\% for Smart Turn~v3 while keeping a median detection latency of 36\,ms versus 800--1300\,ms. Despite using only 1.14\,M parameters, the proposed model matches or exceeds transformer-based baselines while substantially reducing latency and memory footprint, making it suitable for edge deployment.
Abstract（参考訳）: 本稿では,音声に基づく会話型AIのためのリアルタイムフロントエンドを提案する。2話者シナリオにおいて,主話者セグメント化と階層的終末検出(EOT)を組み合わせた自然なターンテイクを実現する。マルチスピーカー環境で堅牢に動作するために、システムはメインユーザーを継続的に識別し、追跡し、下流のEOT決定がバックグラウンドの会話によって確立されないことを保証します。追跡された活動セグメントは、一次話者とボットの両方から話者ごとの音声特徴を独立して分析することにより、即時会話状態を予測する階層的因果EOTモデルに供給される。同時に、モデルは会話相手のスピーチを認識した確率的予測(t{+}10/20/30$\,ms)により、近未来状態(t{+}10/20/30$\,ms)を予測する。タスク固有の知識蒸留はwav2vec~2.0表現(768\,D)をコンパクトなMFCCベースの学生(32\,D)に圧縮して効率よく展開する。このシステムは、バックチャネル検出において82\%のマルチクラスフレームレベルF1と70.6\%のF1を達成し、69.3\%のF1をバイナリファイナル対ファイナルで達成する。他のタスク。エンド・ツー・エンドのターン・ディテクト・ベンチマークでは、モデルが87.7\%のリコールに到達した。 Smart Turn~v3 では 58.9\% であり、検出遅延は 36\,ms に対して 800--1300\,ms である。 1.14\,Mパラメータしか使用していないにもかかわらず、提案したモデルはトランスフォーマーベースのベースラインにマッチするか超過し、レイテンシとメモリフットプリントを大幅に削減し、エッジデプロイメントに適している。

関連論文リスト

Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2025-05-29T07:47:48Z)
An Effective Transformer-based Contextual Model and Temporal Gate Pooling for Speaker Identification [0.0]
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。話者識別のための強力な学習能力を備えたプール手法であるテンポラルゲートプーリングを提案する。提案手法は28.5Mパラメータで87.1%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
論文参考訳（メタデータ） (2023-08-22T07:34:07Z)
LoCoNet: Long-Short Context Network for Active Speaker Detection [18.06037779826666]
Active Speaker Detection (ASD) は、ビデオの各フレームで誰が話しているかを特定することを目的としている。簡単な長短コンテキストネットワークであるLoCoNetを提案する。 LoCoNetは、複数のデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-01-19T18:54:43Z)
Unified End-to-End Speech Recognition and Endpointing for Fast and Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文参考訳（メタデータ） (2022-11-01T23:43:15Z)
Real-time Speaker counting in a cocktail party scenario using Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。 WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文参考訳（メタデータ） (2021-10-30T19:24:57Z)
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。 HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文参考訳（メタデータ） (2021-06-14T14:14:28Z)
Sequential End-to-End Intent and Slot Label Classification and Localization [2.1684857243537334]
エンドツーエンド(e2e)の音声言語理解(SLU)ソリューションが最近提案されている。本稿では,音声信号のチャンクを連続処理して意図とスロット値を予測する,ストリーミングシナリオのためのコンパクトなe2e SLUアーキテクチャを提案する。その結果,CTC 98.97 %,CTL 98.78 % に到達した音声信号の処理能力が得られた。
論文参考訳（メタデータ） (2021-06-08T19:53:04Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。 SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。このアプローチをVoxCeleb1と2のデータセットで評価した。
論文参考訳（メタデータ） (2020-08-03T09:31:27Z)
Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。 TS-VADは各時間フレーム上の各話者の活動を直接予測する。 CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文参考訳（メタデータ） (2020-05-14T21:24:56Z)
A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文参考訳（メタデータ） (2020-05-02T11:09:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。