論文の概要: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis
- arxiv url: http://arxiv.org/abs/2409.03597v1
- Date: Thu, 5 Sep 2024 14:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:15:17.173888
- Title: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis
- Title(参考訳): 声帯麻痺の診断支援のためのマルチモーダル喉頭内視鏡画像解析
- Authors: Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Faya Liang, Ming Li,
- Abstract要約: Multimodal Analyzing System for Laryngoscope (MASL)は、音声とビデオデータを組み合わせて、喉頭腔鏡ビデオから重要なセグメントとメトリクスを自動的に抽出し、臨床評価を行う。
MASLは、声帯検出とキーワードスポッティングを統合して、患者の発声を分析し、ビデオハイライトを精査し、声帯の動きをよりよく検査する。
- 参考スコア(独自算出の注目度): 7.583632364503357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Multimodal Analyzing System for Laryngoscope (MASL), a system that combines audio and video data to automatically extract key segments and metrics from laryngeal videostroboscopic videos for clinical assessment. MASL integrates glottis detection with keyword spotting to analyze patient vocalizations and refine video highlights for better inspection of vocal cord movements. The system includes a strobing video extraction module that identifies frames by analyzing hue, saturation, and value fluctuations. MASL also provides effective metrics for vocal cord paralysis detection, employing a two-stage glottis segmentation process using U-Net followed by diffusion-based refinement to reduce false positives. Instead of glottal area waveforms, MASL estimates anterior glottic angle waveforms (AGAW) from glottis masks, evaluating both left and right vocal cords to detect unilateral vocal cord paralysis (UVFP). By comparing AGAW variances, MASL distinguishes between left and right paralysis. Ablation studies and experiments on public and real-world datasets validate MASL's segmentation module and demonstrate its ability to provide reliable metrics for UVFP diagnosis.
- Abstract(参考訳): 本稿では,喉頭内視鏡検査のためのマルチモーダル分析システム (MASL) について述べる。
MASLは、声帯検出とキーワードスポッティングを統合して、患者の発声を分析し、ビデオハイライトを精査し、声帯の動きをよりよく検査する。
本システムは、色調、飽和、および値ゆらぎを分析してフレームを識別するストロボングビデオ抽出モジュールを含む。
MASLはまた、声帯麻痺検出に有効な指標を提供し、U-Netを用いた2段階の声門分割プロセスを使用し、拡散に基づく改善を行い、偽陽性を減少させる。
声門領域波形の代わりに、MASLは声門マスクから前方声門角度波形(AGAW)を推定し、左右の声帯を評価して片側声門麻痺(UVFP)を検出する。
AGAWの差異を比較することで、MASLは左右の麻痺を区別する。
パブリックおよび実世界のデータセットに関するアブレーション研究と実験は、MASLのセグメンテーションモジュールを検証し、UVFP診断のための信頼性のあるメトリクスを提供する能力を示す。
関連論文リスト
- MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video [13.231546105751015]
医療画像用マルチモーダル生成装置MMSummaryについて,特に胎児超音波検査を中心に紹介した。
MMSummaryは3段階のパイプラインとして設計されており、解剖学的検出からキャプション、最後にセグメンテーションと測定まで進歩している。
報告された実験に基づいて、スキャン時間を約31.5%削減し、ワークフロー効率を向上させる可能性を示唆している。
論文 参考訳(メタデータ) (2024-08-07T13:30:58Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - A Unified Approach for Comprehensive Analysis of Various Spectral and
Tissue Doppler Echocardiography [3.7775754350457746]
本稿では、コンボリューションニューラルネットワークを用いた新しい統合フレームワークを導入し、スペクトルおよび組織ドプラ心エコー画像の包括的解析を行った。
ネットワークは、新しいドップラー形状の埋め込みとアンチエイリアスモジュールによって、様々なドップラービューにまたがる重要な特徴を自動的に認識する。
実験結果から, ダイス類似度係数 (DSC) や結合上の交叉 (IoU) など, 性能指標における一貫したアウトパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-11-14T15:10:05Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - MS Lesion Segmentation: Revisiting Weighting Mechanisms for Federated
Learning [92.91544082745196]
フェデレートラーニング(FL)は医用画像解析に広く用いられている。
FLのパフォーマンスは、多発性硬化症(MS)病変セグメンテーションタスクに制限される。
2つの効果的な再重み付け機構によるFLMS病変分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-03T14:06:03Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Heart Sound Segmentation using Bidirectional LSTMs with Attention [37.62160903348547]
心電図(PCG)信号を心臓状態に分割するための新しい枠組みを提案する。
我々は近年の注目に基づく学習の進歩を利用してPCG信号のセグメンテーションを行う。
提案手法は,ヒトと動物の両方の心臓記録を含む複数のベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-04-02T02:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。