論文の概要: O-EENC-SD: Efficient Online End-to-End Neural Clustering for Speaker Diarization
- arxiv url: http://arxiv.org/abs/2512.15229v1
- Date: Wed, 17 Dec 2025 09:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.918653
- Title: O-EENC-SD: Efficient Online End-to-End Neural Clustering for Speaker Diarization
- Title(参考訳): O-EENC-SD:話者ダイアリゼーションのための効率的なオンラインエンドツーエンドニューラルクラスタリング
- Authors: Elio Gruttadauria, Mathieu Fontaine, Jonathan Le Roux, Slim Essid,
- Abstract要約: O-EENC-SDはEEND-EDAに基づくエンドツーエンドのオンライン話者ダイアリゼーションシステムである。
我々は,厳密なアブレーション研究により有用性を評価する,新しいセントロイド精製デコーダを開発した。
- 参考スコア(独自算出の注目度): 46.665605221223295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce O-EENC-SD: an end-to-end online speaker diarization system based on EEND-EDA, featuring a novel RNN-based stitching mechanism for online prediction. In particular, we develop a novel centroid refinement decoder whose usefulness is assessed through a rigorous ablation study. Our system provides key advantages over existing methods: a hyperparameter-free solution compared to unsupervised clustering approaches, and a more efficient alternative to current online end-to-end methods, which are computationally costly. We demonstrate that O-EENC-SD is competitive with the state of the art in the two-speaker conversational telephone speech domain, as tested on the CallHome dataset. Our results show that O-EENC-SD provides a great trade-off between DER and complexity, even when working on independent chunks with no overlap, making the system extremely efficient.
- Abstract(参考訳): EEND-EDAに基づくエンドツーエンドのオンライン話者ダイアリゼーションシステムであるO-EENC-SDについて紹介する。
特に,厳密なアブレーション研究により有用性を評価するセントロイド精製デコーダを開発した。
我々のシステムは、教師なしクラスタリング手法と比較して、ハイパーパラメータフリーのソリューションであり、計算コストのかかる現在のオンラインエンドツーエンド手法よりも効率的な代替手段である。
O-EENC-SDは、CallHomeデータセットでテストされた2話者会話音声領域の最先端技術と競合することを示す。
以上の結果から,O-EENC-SDは,重複のない独立したチャンクの開発においても,DERと複雑性との間に大きなトレードオフをもたらすことが示唆された。
関連論文リスト
- HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。
HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。
提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization [8.737789422658247]
本研究では,話者埋め込みを別途行わずに,EENDを局所的かつグローバルに長大な音声に適用する新しいフレームワークを提案する。
このアプローチは、コールホーム・アメリカン・イングリッシュとRT03-CTSデータセットにおける従来の1パスEENDよりも13%と10%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-06-26T18:32:16Z) - End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization [34.90908110610951]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案するE-SHARCフレームワークは,グラフベースのクラスタリング手法を用いて,競合ダイアリゼーション結果を提供する。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Tight integration of neural- and clustering-based diarization through
deep unfolding of infinite Gaussian mixture model [84.57667267657382]
本稿では,統合フレームワークにトレーニング可能なクラスタリングアルゴリズムを導入する。
話者埋め込みはトレーニング中に最適化され、iGMMクラスタリングに適合する。
実験の結果,提案手法はダイアリゼーション誤差率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-14T07:45:21Z) - Improving Character Error Rate Is Not Equal to Having Clean Speech:
Speech Enhancement for ASR Systems with Black-box Acoustic Models [1.6328866317851185]
本稿では,ディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。
提案手法は2つのDNNを用いており、1つは音声処理用、もう1つは音響モデル(AM)による出力CERを模倣する。
実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。
論文 参考訳(メタデータ) (2021-10-12T12:51:53Z) - Autodidactic Neurosurgeon: Collaborative Deep Inference for Mobile Edge
Intelligence via Online Learning [19.013102763434794]
本稿では,資源制約のあるモバイルデバイスと強力なエッジサーバとの間に協調的な深層推論システムを構築する。
我々のシステムには、Autodidactic Neurosurgeon (ANS)と呼ばれるオンライン学習モジュールが組み込まれており、最適な分割点を自動的に学習する。
ANSは、トラッキングシステムの変更とエンドツーエンドの推論遅延の低減の観点から、最先端のベンチマークを著しく上回る。
論文 参考訳(メタデータ) (2021-02-02T18:50:06Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。