論文の概要: Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews
- arxiv url: http://arxiv.org/abs/2010.16131v2
- Date: Thu, 5 Nov 2020 08:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:02:39.096188
- Title: Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews
- Title(参考訳): 会話型臨床面接における話者役割認識と話者登録プロトコルの比較
- Authors: Rachid Riad and Hadrien Titeux and Laurie Lemoine and Justine
Montillot and Agnes Sliwinski and Jennifer Hamet Bagnou and Xuan Nga Cao and
Anne-Catherine Bachoud-L\'evi and Emmanuel Dupoux
- Abstract要約: エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
- 参考スコア(独自算出の注目度): 9.728371067160941
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conversations between a clinician and a patient, in natural conditions, are
valuable sources of information for medical follow-up. The automatic analysis
of these dialogues could help extract new language markers and speed-up the
clinicians' reports. Yet, it is not clear which speech processing pipeline is
the most performing to detect and identify the speaker turns, especially for
individuals with speech and language disorders. Here, we proposed a split of
the data that allows conducting a comparative evaluation of speaker role
recognition and speaker enrollment methods to solve this task. We trained
end-to-end neural network architectures to adapt to each task and evaluate each
approach under the same metric. Experimental results are reported on
naturalistic clinical conversations between Neuropsychologist and Interviewees,
at different stages of Huntington's disease. We found that our Speaker Role
Recognition model gave the best performances. In addition, our study underlined
the importance of retraining models with in-domain data. Finally, we observed
that results do not depend on the demographics of the Interviewee, highlighting
the clinical relevance of our methods.
- Abstract(参考訳): 臨床医と患者の会話は、自然条件下では、医療のフォローアップのための貴重な情報源である。
これらの対話の自動分析は、新しい言語マーカーの抽出と臨床医の報告のスピードアップに役立つ。
しかし、特に発話障害や言語障害の個人において、話者の回旋を検知し識別するのに最も効果的な音声処理パイプラインはどれかは明らかではない。
本稿では,この課題を解決するために,話者の役割認識と話者登録手法の比較評価を行うことのできるデータの分割を提案した。
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングして、各タスクに適応し、同じメトリクスで各アプローチを評価しました。
ハンティントン病の異なる段階における神経心理学者と面接者の自然な臨床会話に関する実験結果が報告されている。
講演者の役割認識モデルは最高のパフォーマンスを示した。
さらに,本研究では,ドメイン内データを用いたモデルの再トレーニングの重要性を強調する。
最後に, 調査の結果は面接者の年齢層に依存しず, 方法の臨床的妥当性が強調された。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - A Comparative Study on Patient Language across Therapeutic Domains for Effective Patient Voice Classification in Online Health Discussions [0.48124799513933847]
本研究では,患者音声の正確な分類における言語的特徴の重要性を分析する。
我々は、類似した言語パターンと組み合わせたデータセットに基づいて事前学習した言語モデルを微調整し、高い精度で患者音声を自動分類した。
この話題の先駆的な研究として、ソーシャルメディアから真正の患者体験を抽出することに注力することは、医療基準の進歩に向けた重要なステップである。
論文 参考訳(メタデータ) (2024-07-23T15:51:46Z) - Speech-based Clinical Depression Screening: An Empirical Study [32.84863235794086]
本研究では,AIを用いた抑うつスクリーニングにおける音声信号の有用性について検討した。
参加者には、北京大学第6病院の外来から採用されているうつ病患者が含まれる。
音声と深部音声の特徴を各参加者の分節録音から抽出した。
論文 参考訳(メタデータ) (2024-06-05T09:43:54Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Identification of Cognitive Decline from Spoken Language through Feature
Selection and the Bag of Acoustic Words Model [0.0]
記憶障害の症状の早期発見は、集団の健康確保に重要な役割を担っている。
臨床環境における標準化された音声テストの欠如は、自然音声言語を解析するための自動機械学習技術の開発にますます重点を置いている。
この研究は特徴選択に関するアプローチを示し、ジュネーブの最小音響パラメータセットと相対音声停止から診断に必要な重要な特徴を自動的に選択することを可能にする。
論文 参考訳(メタデータ) (2024-02-02T17:06:03Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Domain-specific Language Pre-training for Dialogue Comprehension on
Clinical Inquiry-Answering Conversations [28.567701055153385]
自然言語処理の最近の進歩は、大規模な事前訓練された言語バックボーンを機械理解や情報抽出のタスクに活用できることを示唆している。
しかし、事前トレーニングと下流臨床ドメインのギャップのため、ドメイン固有のアプリケーションに一般的なバックボーンを活用することは依然として困難である。
本稿では,対話理解などの下流タスクの性能向上を目的とした,ドメイン固有言語事前学習を提案する。
論文 参考訳(メタデータ) (2022-06-06T08:45:03Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。