論文の概要: TCG CREST System Description for the DISPLACE-M Challenge
- arxiv url: http://arxiv.org/abs/2603.02030v4
- Date: Tue, 10 Mar 2026 04:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 19:44:00.501684
- Title: TCG CREST System Description for the DISPLACE-M Challenge
- Title(参考訳): DISPLACE-M チャレンジのための TCG CREST システム記述
- Authors: Nikhil Raghav, Md Sahidullah,
- Abstract要約: 本報告では, DISPLACE-M チャレンジのトラック1(話者ダイアリゼーション)における TCG CREST システム記述について述べる。
本研究では,様々な音声活動検出法と高度なクラスタリングアルゴリズムが話者ダイアリゼーション(SD)性能に与える影響について検討した。
- 参考スコア(独自算出の注目度): 11.144212535817674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the TCG CREST system description for Track 1 (Speaker Diarization) of the DISPLACE-M challenge, focusing on naturalistic medical conversations in noisy rural-healthcare scenarios. Our study evaluates the impact of various voice activity detection (VAD) methods and advanced clustering algorithms on overall speaker diarization (SD) performance. We compare and analyze two SD frameworks: a modular pipeline utilizing SpeechBrain with ECAPA-TDNN embeddings, and a state-of-the-art (SOTA) hybrid end-to-end neural diarization system, Diarizen, built on top of a pre-trained WavLM. With these frameworks, we explore diverse clustering techniques, including agglomerative hierarchical clustering (AHC), and multiple novel variants of spectral clustering, such as SC-adapt, SC-PNA, and SC-MK. Experimental results demonstrate that the Diarizen system provides an approximate $39\%$ relative improvement in the diarization error rate (DER) on the post-evaluation analysis of Phase~I compared to the SpeechBrain baseline. Our best-performing submitted system employing the Diarizen baseline with AHC employing a median filtering with a larger context window of $29$ achieved a DER of 10.37\% on the development and 9.21\% on the evaluation sets, respectively. Our team ranked fifth out of the 11 participating teams after the Phase~I evaluation.
- Abstract(参考訳): 本報告では,DisPLACE-Mチャレンジのトラック1(話者ダイアリゼーション)におけるTCG CRESTシステム記述について述べる。
本研究では,様々な音声活動検出法と高度なクラスタリングアルゴリズムが全話者ダイアリゼーション(SD)性能に与える影響について検討した。
我々は,SpeechBrainとECAPA-TDNNを組み込んだモジュール型パイプラインと,トレーニング済みのWavLM上に構築された,最先端(SOTA)ハイブリッドニューラルネットワークダイアリゼーションシステムであるDiarizenを比較し,解析する。
これらのフレームワークを用いて、集約階層クラスタリング(AHC)や、SC-adapt、SC-PNA、SC-MKといった新しいスペクトルクラスタリングのバリエーションなど、多様なクラスタリング手法を探索する。
実験結果から,Diarizen システムは,SpeechBrain ベースラインと比較して,位相~I の評価後の解析に基づいて,約3,9 % の相対的改善率(DER)を提供することがわかった。
AHCを用いたDiarizenベースラインを用いた提案システムでは,大コンテキストウィンドウが29ドル,開発が10.37.%,評価セットが9.21.%であった。
私たちのチームは、フェーズ~I評価後の11チーム中5位にランクインしました。
関連論文リスト
- Hierarchical Corpus-View-Category Refinement for Carotid Plaque Risk Grading in Ultrasound [29.02957425057645]
我々はCVC-RF(Corpus-View-Category Refinement Framework)を提案する。
CVC-RFはコーパスレベル、ビューレベル、カテゴリーレベルの情報を処理し、モデル性能を向上させる。
実験結果から,CVC-RFは多レベル改良によるグローバルな特徴を効果的にモデル化できることが示された。
論文 参考訳(メタデータ) (2025-06-29T06:20:15Z) - Multi-Class Segmentation of Aortic Branches and Zones in Computed Tomography Angiography: The AortaSeg24 Challenge [55.252714550918824]
AortaSeg24 MICCAI Challengeは、23の臨床的に関連する大動脈枝と領域に注釈付き100 CTA巻の最初のデータセットを導入した。
本稿では,トップパフォーマンスアルゴリズムの課題設計,データセットの詳細,評価指標,詳細な分析について述べる。
論文 参考訳(メタデータ) (2025-02-07T21:09:05Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - MPSeg : Multi-Phase strategy for coronary artery Segmentation [9.767759441883008]
冠動脈セグメンテーションのための革新的多相戦略であるMPSegを提案する。
本手法は,これらの構造的複雑度に特化しており,SynTAXスコアの原理に準拠している。
特に, 自動冠状動脈疾患診断では, 異常な効果が認められた。
論文 参考訳(メタデータ) (2023-11-17T03:33:09Z) - Interpretable simultaneous localization of MRI corpus callosum and
classification of atypical Parkinsonian disorders using YOLOv5 [0.9236074230806579]
コーパス・カロサム(CC)は主要な白色物質繊維であり、半球間通信を可能にする。
本研究は、不定型パーキンソン病(PD)と健康管理(HC)を区別するYOLOv5ベースのCC検出フレームワークの可能性を提案する。
論文 参考訳(メタデータ) (2023-06-01T09:23:22Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - A Global Benchmark of Algorithms for Segmenting Late Gadolinium-Enhanced
Cardiac Magnetic Resonance Imaging [90.29017019187282]
現在世界最大の心臓LGE-MRIデータセットである154個の3D LGE-MRIを用いた「2018 left Atrium Challenge」。
技術および生物学的指標を用いた提案アルゴリズムの解析を行った。
その結果, 最上部法は93.2%, 平均表面は0.7mmであった。
論文 参考訳(メタデータ) (2020-04-26T08:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。