論文の概要: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis
- arxiv url: http://arxiv.org/abs/2409.03597v1
- Date: Thu, 5 Sep 2024 14:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 20:15:17.173888
- Title: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Cord Paralysis
- Title(参考訳): 声帯麻痺の診断支援のためのマルチモーダル喉頭内視鏡画像解析
- Authors: Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Faya Liang, Ming Li,
- Abstract要約: Multimodal Analyzing System for Laryngoscope (MASL)は、音声とビデオデータを組み合わせて、喉頭腔鏡ビデオから重要なセグメントとメトリクスを自動的に抽出し、臨床評価を行う。
MASLは、声帯検出とキーワードスポッティングを統合して、患者の発声を分析し、ビデオハイライトを精査し、声帯の動きをよりよく検査する。
- 参考スコア(独自算出の注目度): 7.583632364503357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Multimodal Analyzing System for Laryngoscope (MASL), a system that combines audio and video data to automatically extract key segments and metrics from laryngeal videostroboscopic videos for clinical assessment. MASL integrates glottis detection with keyword spotting to analyze patient vocalizations and refine video highlights for better inspection of vocal cord movements. The system includes a strobing video extraction module that identifies frames by analyzing hue, saturation, and value fluctuations. MASL also provides effective metrics for vocal cord paralysis detection, employing a two-stage glottis segmentation process using U-Net followed by diffusion-based refinement to reduce false positives. Instead of glottal area waveforms, MASL estimates anterior glottic angle waveforms (AGAW) from glottis masks, evaluating both left and right vocal cords to detect unilateral vocal cord paralysis (UVFP). By comparing AGAW variances, MASL distinguishes between left and right paralysis. Ablation studies and experiments on public and real-world datasets validate MASL's segmentation module and demonstrate its ability to provide reliable metrics for UVFP diagnosis.
- Abstract(参考訳): 本稿では,喉頭内視鏡検査のためのマルチモーダル分析システム (MASL) について述べる。
MASLは、声帯検出とキーワードスポッティングを統合して、患者の発声を分析し、ビデオハイライトを精査し、声帯の動きをよりよく検査する。
本システムは、色調、飽和、および値ゆらぎを分析してフレームを識別するストロボングビデオ抽出モジュールを含む。
MASLはまた、声帯麻痺検出に有効な指標を提供し、U-Netを用いた2段階の声門分割プロセスを使用し、拡散に基づく改善を行い、偽陽性を減少させる。
声門領域波形の代わりに、MASLは声門マスクから前方声門角度波形(AGAW)を推定し、左右の声帯を評価して片側声門麻痺(UVFP)を検出する。
AGAWの差異を比較することで、MASLは左右の麻痺を区別する。
パブリックおよび実世界のデータセットに関するアブレーション研究と実験は、MASLのセグメンテーションモジュールを検証し、UVFP診断のための信頼性のあるメトリクスを提供する能力を示す。
関連論文リスト
- Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Multi-View Spectrogram Transformer for Respiratory Sound Classification [32.346046623638394]
視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。
ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-11-16T08:17:02Z) - A Unified Approach for Comprehensive Analysis of Various Spectral and
Tissue Doppler Echocardiography [3.7775754350457746]
本稿では、コンボリューションニューラルネットワークを用いた新しい統合フレームワークを導入し、スペクトルおよび組織ドプラ心エコー画像の包括的解析を行った。
ネットワークは、新しいドップラー形状の埋め込みとアンチエイリアスモジュールによって、様々なドップラービューにまたがる重要な特徴を自動的に認識する。
実験結果から, ダイス類似度係数 (DSC) や結合上の交叉 (IoU) など, 性能指標における一貫したアウトパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-11-14T15:10:05Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Analysis and Detection of Pathological Voice using Glottal Source
Features [18.80191660913831]
準閉鎖相 (QCP) のスロットル逆フィルタリング法を用いて, 声門音源の特徴を推定し, 声門音源の特徴を抽出した。
我々はQCPとZFFによって計算された震源波形からメル周波数ケプストラル係数(MFCC)を導出する。
特徴分析の結果,声門源には正常な声と病理的な声を識別する情報が含まれていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T12:14:25Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - DopUS-Net: Quality-Aware Robotic Ultrasound Imaging based on Doppler
Signal [48.97719097435527]
DopUS-Netはドップラー画像とBモード画像を組み合わせることで、小血管のセグメンテーション精度と堅牢性を高める。
動脈再同定モジュールは、リアルタイムセグメンテーション結果を質的に評価し、拡張ドップラー画像に対するプローブポーズを自動的に最適化する。
論文 参考訳(メタデータ) (2023-05-15T18:19:29Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。