Fugu-MT 論文翻訳(概要): Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

論文の概要: Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

arxiv url: http://arxiv.org/abs/2603.00086v1
Date: Mon, 16 Feb 2026 13:23:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 01:20:08.039173
Title: Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization
Title（参考訳）: フランス語臨床面接の書き起こしと話者ダイアリゼーションの反復的LLMによる改善
Authors: Ambre Marie, Thomas Bertin, Guillaume Dardenne, Gwenolé Quellec,
Abstract要約: 本研究では,話者認識と単語認識を交互に行うマルチパスLLM後処理アーキテクチャを提案する。 Qwen3-Next-80Bを用いて、ウィルコクソンのサインランクテストにより、自殺予防会話において重要なWDERの減少が確認された。
参考スコア（独自算出の注目度）: 0.4479269608382634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition for French medical conversations remains challenging, with word error rates often exceeding 30% in spontaneous clinical speech. This study proposes a multi-pass LLM post-processing architecture alternating between Speaker Recognition and Word Recognition passes to improve transcription accuracy and speaker attribution. Ablation studies on two French clinical datasets (suicide prevention telephone counseling and preoperative awake neurosurgery consultations) investigate four design choices: model selection, prompting strategy, pass ordering, and iteration depth. Using Qwen3-Next-80B, Wilcoxon signed-rank tests confirm significant WDER reductions on suicide prevention conversations (p < 0.05, n=18), while maintaining stability on awake neurosurgery consultations (n=10), with zero output failures and acceptable computational cost (RTF 0.32), suggesting feasibility for offline clinical deployment.
Abstract（参考訳）: フランスの医学的会話の自動音声認識は依然として困難であり、単語誤り率はしばしば自然発生の臨床音声の30%を超えている。本研究では,話者認識と単語認識を交互に行うマルチパスLLM後処理アーキテクチャを提案する。フランスの2つの臨床データセット(自殺防止電話カウンセリングおよび術前の覚醒神経外科相談)のアブレーション研究は、モデル選択、プロンプト戦略、パスオーダー、反復深さの4つの設計選択を調査する。 Qwen3-Next-80Bを用いて、ウィルコクソンのサインランクテストにより、WDERによる自殺予防会話の大幅な削減(p < 0.05, n=18)が確認された。

関連論文リスト

Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。実世界の中国のコンサルティングデータセットを2つ評価した。
論文参考訳（メタデータ） (2025-07-10T15:52:04Z)
Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文参考訳（メタデータ） (2025-01-29T18:58:48Z)
Zero-Shot Clinical Trial Patient Matching with LLMs [40.31971412825736]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文参考訳（メタデータ） (2024-02-05T00:06:08Z)
Automatically measuring speech fluency in people with aphasia: first achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文参考訳（メタデータ） (2023-08-09T07:51:40Z)
AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。 70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文参考訳（メタデータ） (2023-05-19T01:04:16Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文参考訳（メタデータ） (2021-02-10T13:00:29Z)
Comparison of Speaker Role Recognition and Speaker Enrollment Protocol for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文参考訳（メタデータ） (2020-10-30T09:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。