論文の概要: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
- arxiv url: http://arxiv.org/abs/2409.03597v2
- Date: Wed, 27 Nov 2024 03:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:22:46.689663
- Title: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
- Title(参考訳): 声帯麻痺の診断支援のためのマルチモーダル喉頭内視鏡画像解析
- Authors: Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li,
- Abstract要約: 本システムは,映像と音声データの両方を解析するための音声キーワードスポッティング手法と,映像に基づく声門検出を統合している。
MLVASは、喉頭ビデオ分光からストロボ化フレームを特定できる高度なストロボ化ビデオ抽出モジュールを備えている。
- 参考スコア(独自算出の注目度): 9.530028450239394
- License:
- Abstract: This paper presents the Multimodal Laryngoscopic Video Analyzing System (MLVAS), a novel system that leverages both audio and video data to automatically extract key segments and metrics from raw laryngeal videostroboscopic videos for assisted clinical assessment. The system integrates video-based glottis detection with an audio keyword spotting method to analyze both video and audio data, identifying patient vocalizations and refining video highlights to ensure optimal inspection of vocal fold movements. Additionally, MLVAS features an advanced strobing video extraction module that specifically identifies strobing frames from laryngeal videostroboscopy by analyzing hue, saturation, and value fluctuations. Beyond key segment extraction, MLVAS provides effective metrics for Vocal Fold Paralysis (VFP) detection. It employs a novel two-stage glottis segmentation process using a U-Net for initial segmentation, followed by a diffusion-based refinement to reduce false positives, providing better segmentation masks for downstream tasks. MLVAS estimates the vibration dynamics for both left and right vocal folds from the segmented glottis masks to detect unilateral VFP by measuring the angle deviation with the estimated glottal midline. Comparing the variance between left's and right's dynamics, the system effectively distinguishes between left and right VFP. We conducted several ablation studies to demonstrate the effectiveness of each module in the proposed MLVAS. The experimental results on a public segmentation dataset show the effectiveness of our proposed segmentation module. In addition, VFP classification results on a real-world clinic dataset demonstrate MLVAS's ability of providing reliable and objective metrics as well as visualization for assisted clinical diagnosis.
- Abstract(参考訳): 本稿では,音声データとビデオデータを利用して,生喉頭ビデオトロボスコープビデオからキーセグメントとメトリクスを自動的に抽出し,臨床評価を支援する新しいシステムであるMultimodal Laryngoscopic Video Analyzing System(MLVAS)を提案する。
本システムは,映像に基づく声門検出と音声キーワードスポッティング手法を統合し,映像データと音声データの両方を解析し,患者の発声を識別し,ビデオハイライトを精査し,声帯運動の最適な検査を確実にする。
さらにMLVASは、色調、飽和度、および値ゆらぎを分析して喉頭ビデオストロボスコープからストロボ化フレームを特定できる高度なストロボ化ビデオ抽出モジュールを備えている。
キーセグメント抽出以外にも、MLVASはVocal Fold Paralysis(VFP)検出に有効なメトリクスを提供する。
初期のセグメンテーションにU-Netを使用した新しい2段階のグロッティセグメンテーションプロセスを採用し、続いて拡散ベースの改良により偽陽性を低減し、下流タスクにより良いセグメンテーションマスクを提供する。
MLVASは,片側VFPを検出するために,左右両声帯の振動動態を推定する。
左の力学と右の力学の差異を比較すると、システムは左のVFPと右のVFPを効果的に区別する。
MLVASにおける各モジュールの有効性を示すために,いくつかのアブレーション実験を行った。
公開セグメンテーションデータセットの実験結果は,提案したセグメンテーションモジュールの有効性を示す。
さらに、実世界のクリニックデータセット上のVFP分類の結果は、MLVASが信頼性と客観的な指標を提供する能力と、診断支援のための可視化能力を示している。
関連論文リスト
- MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video [13.231546105751015]
医療画像用マルチモーダル生成装置MMSummaryについて,特に胎児超音波検査を中心に紹介した。
MMSummaryは3段階のパイプラインとして設計されており、解剖学的検出からキャプション、最後にセグメンテーションと測定まで進歩している。
報告された実験に基づいて、スキャン時間を約31.5%削減し、ワークフロー効率を向上させる可能性を示唆している。
論文 参考訳(メタデータ) (2024-08-07T13:30:58Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - A Unified Approach for Comprehensive Analysis of Various Spectral and
Tissue Doppler Echocardiography [3.7775754350457746]
本稿では、コンボリューションニューラルネットワークを用いた新しい統合フレームワークを導入し、スペクトルおよび組織ドプラ心エコー画像の包括的解析を行った。
ネットワークは、新しいドップラー形状の埋め込みとアンチエイリアスモジュールによって、様々なドップラービューにまたがる重要な特徴を自動的に認識する。
実験結果から, ダイス類似度係数 (DSC) や結合上の交叉 (IoU) など, 性能指標における一貫したアウトパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-11-14T15:10:05Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - MS Lesion Segmentation: Revisiting Weighting Mechanisms for Federated
Learning [92.91544082745196]
フェデレートラーニング(FL)は医用画像解析に広く用いられている。
FLのパフォーマンスは、多発性硬化症(MS)病変セグメンテーションタスクに制限される。
2つの効果的な再重み付け機構によるFLMS病変分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-03T14:06:03Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Heart Sound Segmentation using Bidirectional LSTMs with Attention [37.62160903348547]
心電図(PCG)信号を心臓状態に分割するための新しい枠組みを提案する。
我々は近年の注目に基づく学習の進歩を利用してPCG信号のセグメンテーションを行う。
提案手法は,ヒトと動物の両方の心臓記録を含む複数のベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-04-02T02:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。