論文の概要: Domain-Aware Speaker Diarization On African-Accented English
- arxiv url: http://arxiv.org/abs/2509.21554v1
- Date: Thu, 25 Sep 2025 20:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.994937
- Title: Domain-Aware Speaker Diarization On African-Accented English
- Title(参考訳): アフリカ英語におけるドメイン認識話者ダイアリゼーション
- Authors: Chibuzor Okocha, Kelechi Ezema, Christan Grant,
- Abstract要約: 我々は,重なり合うような厳密なDERプロトコルの下で,一般と臨床の対話システムの評価を行った。
臨床スピーチには一貫したドメインペナルティが出現し、モデル全体でも重要な存在である。
その結果, 重なり認識されたセグメンテーションと, 臨床資源のバランスが, 次のステップとして示唆された。
- 参考スコア(独自算出の注目度): 3.9057062030344176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study examines domain effects in speaker diarization for African-accented English. We evaluate multiple production and open systems on general and clinical dialogues under a strict DER protocol that scores overlap. A consistent domain penalty appears for clinical speech and remains significant across models. Error analysis attributes much of this penalty to false alarms and missed detections, aligning with short turns and frequent overlap. We test lightweight domain adaptation by fine-tuning a segmentation module on accent-matched data; it reduces error but does not eliminate the gap. Our contributions include a controlled benchmark across domains, a concise approach to error decomposition and conversation-level profiling, and an adaptation recipe that is easy to reproduce. Results point to overlap-aware segmentation and balanced clinical resources as practical next steps.
- Abstract(参考訳): 本研究では,アフリカ系英語話者に対する話者ダイアリゼーションにおける領域効果について検討した。
重なり合うような厳密なDERプロトコルを用いて, 一般および臨床対話における複数生産・開放システムの評価を行った。
臨床スピーチには一貫したドメインペナルティが出現し、モデル全体でも重要な存在である。
エラー解析は、このペナルティの大部分を誤報と検出の欠如によるもので、短いターンと頻繁な重複に一致している。
アクセントマッチングされたデータ上にセグメンテーションモジュールを微調整することで、軽量なドメイン適応をテストする。
私たちのコントリビューションには、ドメイン間の制御されたベンチマーク、エラー分解と会話レベルのプロファイリングへの簡潔なアプローチ、再現が容易な適応レシピが含まれています。
その結果, 重なり認識されたセグメンテーションと, 臨床資源のバランスが, 次のステップとして示唆された。
関連論文リスト
- Specialised or Generic? Tokenization Choices for Radiology Language Models [2.081299660192454]
言語モデル(LM)が使用する語彙は、テキスト生成の品質において重要な役割を果たす。
放射線診断のタスクにおける一般,医療,ドメイン特異的なトークン化剤は,3つの画像モダリティにまたがって要約を報告する。
以上の結果から, 医学的, 専門的な語彙は, モデルがゼロから訓練されたとき, 広く使われている自然言語の代替語よりも優れていた。
論文 参考訳(メタデータ) (2025-08-13T17:13:56Z) - Anomaly Detection in Human Language via Meta-Learning: A Few-Shot Approach [0.0]
本稿では,ラベル付きデータに制限のある多種多様な領域にまたがる人間の言語における異常を検出する枠組みを提案する。
異常検出を数発のバイナリ分類問題として扱い、メタラーニングを活用してタスクを一般化するモデルを訓練する。
提案手法は,エピソードトレーニングと原型ネットワークとドメイン再サンプリングを組み合わせることで,新しい異常検出タスクに迅速に適応する。
論文 参考訳(メタデータ) (2025-07-26T17:23:03Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - BER: Balanced Error Rate For Speaker Diarization [22.06525303590671]
本稿では,話者のダイアリゼーションを評価するための平衡誤差率(BER)を提案する。
まず,接続されたサブグラフと適応IoU閾値を用いたセグメントレベルの誤差率(SER)を提案し,精度の高いセグメントマッチングを実現する。
第2に、ダイアリゼーションを統一的に評価するために、持続時間とセグメント間の話者固有の調和平均、次いで話者重み付き平均を採用する。
論文 参考訳(メタデータ) (2022-11-08T15:17:39Z) - APEACH: Attacking Pejorative Expressions with Analysis on
Crowd-Generated Hate Speech Evaluation Datasets [4.034948808542701]
APEACHは、特定されていないユーザによって生成されるヘイトスピーチの収集を可能にする方法である。
ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,ヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。
論文 参考訳(メタデータ) (2022-02-25T02:04:38Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Assertion Detection in Multi-Label Clinical Text using Scope
Localization [1.937415170949876]
我々は,複数のラベルとそのスコープを単一段階のエンドツーエンドでローカライズする畳み込みニューラルネットワーク(CNN)アーキテクチャを開発した。
本モデルは,多ラベル臨床テキストの最先端よりも12%高い性能を示した。
論文 参考訳(メタデータ) (2020-05-19T06:56:02Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。