論文の概要: SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis
- arxiv url: http://arxiv.org/abs/2510.02322v1
- Date: Wed, 24 Sep 2025 15:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.770466
- Title: SpeechCT-CLIP: Distilling Text-Image Knowledge to Speech for Voice-Native Multimodal CT Analysis
- Title(参考訳): SpeechCT-CLIP:音声Native Multimodal CT解析のための音声へのテキスト画像知識の蒸留
- Authors: Lukas Buess, Jan Geier, David Bani-Harouni, Chantal Pellegrini, Matthias Keicher, Paula Andrea Perez-Toro, Nassir Navab, Andreas Maier, Tomas Arias-Vergara,
- Abstract要約: 音声と3次元CTのボリュームを共有表現空間で整列するコントラストモデルを訓練する。
実験では0ショット分類F1が0.623から0.705に改善され、性能差の88%が回復した。
これらの知見は,マルチモーダル・プレトレーニングにおけるテキストの代替手段としての音声を強調し,臨床実践における音声駆動診断支援ツールへの扉を開く。
- 参考スコア(独自算出の注目度): 33.90335501244261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken communication plays a central role in clinical workflows. In radiology, for example, most reports are created through dictation. Yet, nearly all medical AI systems rely exclusively on written text. In this work, we address this gap by exploring the feasibility of learning visual-language representations directly from spoken radiology reports. Specifically, we synthesize a large-scale dataset (Speech-RATE) of spoken radiology reports and train SpeechCT-CLIP, a contrastive model that aligns speech and 3D CT volumes in a shared representation space. While naive speech-based models underperform compared to text-trained counterparts, we show that knowledge distillation from a pretrained text-image CLIP model effectively transfers semantic alignment capabilities from text to speech, substantially narrowing this gap. Experiments demonstrate improved zero-shot classification F1 from 0.623 to 0.705, recovering 88% of the performance difference, and strong retrieval results without requiring text at inference. These findings highlight speech as a practical alternative to text in multimodal pretraining and open the door to voice-driven diagnostic support tools in clinical practice.
- Abstract(参考訳): 音声コミュニケーションは、臨床ワークフローにおいて中心的な役割を果たす。
例えば、放射線学では、ほとんどの報告は布告によって作成される。
しかし、ほとんどの医療用AIシステムはテキストのみに依存している。
本研究では,音声ラジオグラフィーレポートから直接視覚言語表現を学習する可能性を検討することで,このギャップに対処する。
具体的には、音声ラジオグラフィーレポートの大規模データセット(Speech-RATE)を合成し、音声と3次元CTボリュームを共有表現空間で整列するコントラストモデルであるSpeechCT-CLIPを訓練する。
ナイーブ音声ベースモデルはテキスト学習モデルに比べて性能が劣るが、事前訓練されたテキストイメージCLIPモデルからの知識蒸留は、テキストから音声へのセマンティックアライメント機能を効果的に伝達し、このギャップを大幅に狭めることを示す。
実験では、ゼロショット分類F1が0.623から0.705に改善され、性能差の88%が回復し、推論時にテキストを必要とせずに強力な検索結果が得られた。
これらの知見は,マルチモーダル・プレトレーニングにおけるテキストの代替手段としての音声を強調し,臨床実践における音声駆動診断支援ツールへの扉を開く。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Seamless Dysfluent Speech Text Alignment for Disordered Speech Analysis [8.5693791544413]
本稿では,難読テキストと音声テキストアライメントのための新しいアプローチであるNeural LCSを提案する。
提案手法を大規模シミュレーションデータセット上で評価する。
以上の結果から,音声障害の診断・解析の自動化システムを強化するニューラルLCSの可能性が示された。
論文 参考訳(メタデータ) (2025-06-05T03:06:37Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Improving Medical Speech-to-Text Accuracy with Vision-Language
Pre-training Model [36.9873998348851]
音声テキスト(STT)は,音声録音の書き起こしにタイピストに依存する臨床医の作業量を大幅に削減する可能性がある。
一般STTシステムの出力テキストを変更する医療領域テキスト補正法を提案する。
提案手法は,医学領域におけるSTT性能の定量的,臨床的に有意な改善をもたらすことを実証した。
論文 参考訳(メタデータ) (2023-02-27T08:06:04Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Text-Aware End-to-end Mispronunciation Detection and Diagnosis [17.286013739453796]
誤認識検出・診断(MDD)技術はコンピュータ支援発音訓練システム(CAPT)の鍵となる要素である
本稿では,関係のないテキスト情報を抑えつつ,関連する音声特徴をより重要視するゲーティング戦略を提案する。
論文 参考訳(メタデータ) (2022-06-15T04:08:10Z) - Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。
我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。
また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文 参考訳(メタデータ) (2020-11-24T00:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。