論文の概要: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
- arxiv url: http://arxiv.org/abs/2409.03597v2
- Date: Wed, 27 Nov 2024 03:19:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 15:52:52.797681
- Title: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
- Title(参考訳): 声帯麻痺の診断支援のためのマルチモーダル喉頭内視鏡画像解析
- Authors: Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li,
- Abstract要約: 本システムは,映像と音声データの両方を解析するための音声キーワードスポッティング手法と,映像に基づく声門検出を統合している。
MLVASは、喉頭ビデオ分光からストロボ化フレームを特定できる高度なストロボ化ビデオ抽出モジュールを備えている。
- 参考スコア(独自算出の注目度): 9.530028450239394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Multimodal Laryngoscopic Video Analyzing System (MLVAS), a novel system that leverages both audio and video data to automatically extract key segments and metrics from raw laryngeal videostroboscopic videos for assisted clinical assessment. The system integrates video-based glottis detection with an audio keyword spotting method to analyze both video and audio data, identifying patient vocalizations and refining video highlights to ensure optimal inspection of vocal fold movements. Additionally, MLVAS features an advanced strobing video extraction module that specifically identifies strobing frames from laryngeal videostroboscopy by analyzing hue, saturation, and value fluctuations. Beyond key segment extraction, MLVAS provides effective metrics for Vocal Fold Paralysis (VFP) detection. It employs a novel two-stage glottis segmentation process using a U-Net for initial segmentation, followed by a diffusion-based refinement to reduce false positives, providing better segmentation masks for downstream tasks. MLVAS estimates the vibration dynamics for both left and right vocal folds from the segmented glottis masks to detect unilateral VFP by measuring the angle deviation with the estimated glottal midline. Comparing the variance between left's and right's dynamics, the system effectively distinguishes between left and right VFP. We conducted several ablation studies to demonstrate the effectiveness of each module in the proposed MLVAS. The experimental results on a public segmentation dataset show the effectiveness of our proposed segmentation module. In addition, VFP classification results on a real-world clinic dataset demonstrate MLVAS's ability of providing reliable and objective metrics as well as visualization for assisted clinical diagnosis.
- Abstract(参考訳): 本稿では,音声データとビデオデータを利用して,生喉頭ビデオトロボスコープビデオからキーセグメントとメトリクスを自動的に抽出し,臨床評価を支援する新しいシステムであるMultimodal Laryngoscopic Video Analyzing System(MLVAS)を提案する。
本システムは,映像に基づく声門検出と音声キーワードスポッティング手法を統合し,映像データと音声データの両方を解析し,患者の発声を識別し,ビデオハイライトを精査し,声帯運動の最適な検査を確実にする。
さらにMLVASは、色調、飽和度、および値ゆらぎを分析して喉頭ビデオストロボスコープからストロボ化フレームを特定できる高度なストロボ化ビデオ抽出モジュールを備えている。
キーセグメント抽出以外にも、MLVASはVocal Fold Paralysis(VFP)検出に有効なメトリクスを提供する。
初期のセグメンテーションにU-Netを使用した新しい2段階のグロッティセグメンテーションプロセスを採用し、続いて拡散ベースの改良により偽陽性を低減し、下流タスクにより良いセグメンテーションマスクを提供する。
MLVASは,片側VFPを検出するために,左右両声帯の振動動態を推定する。
左の力学と右の力学の差異を比較すると、システムは左のVFPと右のVFPを効果的に区別する。
MLVASにおける各モジュールの有効性を示すために,いくつかのアブレーション実験を行った。
公開セグメンテーションデータセットの実験結果は,提案したセグメンテーションモジュールの有効性を示す。
さらに、実世界のクリニックデータセット上のVFP分類の結果は、MLVASが信頼性と客観的な指標を提供する能力と、診断支援のための可視化能力を示している。
関連論文リスト
- MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer [6.520396145278936]
本稿では,映像クエリに基づくビデオクリップのローカライゼーション(VQ)手法を提案する。
MCATはその解剖学の標準フレームを含むビデオクリップを返却し、潜在的な異常の徹底的なスクリーニングを容易にする。
このモデルでは, 超音波データセットでは10%, 13% mIoU, Ego4Dデータセットでは5.35% mIoU, 96%少ないトークンでは10%, 13% mIoUで, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-08T14:29:15Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video [13.231546105751015]
医療画像用マルチモーダル生成装置MMSummaryについて,特に胎児超音波検査を中心に紹介した。
MMSummaryは3段階のパイプラインとして設計されており、解剖学的検出からキャプション、最後にセグメンテーションと測定まで進歩している。
報告された実験に基づいて、スキャン時間を約31.5%削減し、ワークフロー効率を向上させる可能性を示唆している。
論文 参考訳(メタデータ) (2024-08-07T13:30:58Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Multi-View Spectrogram Transformer for Respiratory Sound Classification [32.346046623638394]
視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。
ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-11-16T08:17:02Z) - A Unified Approach for Comprehensive Analysis of Various Spectral and
Tissue Doppler Echocardiography [3.7775754350457746]
本稿では、コンボリューションニューラルネットワークを用いた新しい統合フレームワークを導入し、スペクトルおよび組織ドプラ心エコー画像の包括的解析を行った。
ネットワークは、新しいドップラー形状の埋め込みとアンチエイリアスモジュールによって、様々なドップラービューにまたがる重要な特徴を自動的に認識する。
実験結果から, ダイス類似度係数 (DSC) や結合上の交叉 (IoU) など, 性能指標における一貫したアウトパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-11-14T15:10:05Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Analysis and Detection of Pathological Voice using Glottal Source
Features [18.80191660913831]
準閉鎖相 (QCP) のスロットル逆フィルタリング法を用いて, 声門音源の特徴を推定し, 声門音源の特徴を抽出した。
我々はQCPとZFFによって計算された震源波形からメル周波数ケプストラル係数(MFCC)を導出する。
特徴分析の結果,声門源には正常な声と病理的な声を識別する情報が含まれていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T12:14:25Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - GEMTrans: A General, Echocardiography-based, Multi-Level Transformer
Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。
本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。
大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文 参考訳(メタデータ) (2023-08-25T07:30:18Z) - DopUS-Net: Quality-Aware Robotic Ultrasound Imaging based on Doppler
Signal [48.97719097435527]
DopUS-Netはドップラー画像とBモード画像を組み合わせることで、小血管のセグメンテーション精度と堅牢性を高める。
動脈再同定モジュールは、リアルタイムセグメンテーション結果を質的に評価し、拡張ドップラー画像に対するプローブポーズを自動的に最適化する。
論文 参考訳(メタデータ) (2023-05-15T18:19:29Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - RespVAD: Voice Activity Detection via Video-Extracted Respiration
Patterns [5.716047866174048]
音声活動検出(Voice Activity Detection, VAD)とは、音声やビデオなどのデジタル信号における人間の音声の領域を識別するタスクである。
呼吸は 音声生成の 主要なエネルギー源となります
話者のビデオから抽出した呼吸パターンを用いた音声非依存型VAD手法を開発した。
論文 参考訳(メタデータ) (2020-08-21T13:26:24Z) - Multi-Modal Video Forensic Platform for Investigating Post-Terrorist
Attack Scenarios [55.82693757287532]
大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。
本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者からの映像アップロードを融合するビデオ分析プラットフォームを提案する。
論文 参考訳(メタデータ) (2020-04-02T14:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。