Fugu-MT 論文翻訳(概要): Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

論文の概要: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

arxiv url: http://arxiv.org/abs/2409.03597v3
Date: Tue, 22 Apr 2025 15:32:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 19:51:40.089625
Title: Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
Title（参考訳）: 声帯麻痺の診断支援のためのマルチモーダル喉頭内視鏡画像解析
Authors: Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming Li,
Abstract要約: 本システムは,映像と音声データの両方を解析するための音声キーワードスポッティング手法と,映像に基づく声門検出を統合している。事前訓練されたオーディオエンコーダを使用して、患者の音声を符号化し、オーディオ機能を取得する。左右両方の声帯の角度偏差を,分割した声門マスク上の推定声門正中線に測定することにより,視覚的特徴が生成される。
参考スコア（独自算出の注目度）: 9.530028450239394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents the Multimodal Laryngoscopic Video Analyzing System (MLVAS), a novel system that leverages both audio and video data to automatically extract key video segments and metrics from raw laryngeal videostroboscopic videos for assisted clinical assessment. The system integrates video-based glottis detection with an audio keyword spotting method to analyze both video and audio data, identifying patient vocalizations and refining video highlights to ensure optimal inspection of vocal fold movements. Beyond key video segment extraction from the raw laryngeal videos, MLVAS is able to generate effective audio and visual features for Vocal Fold Paralysis (VFP) detection. Pre-trained audio encoders are utilized to encode the patient voice to get the audio features. Visual features are generated by measuring the angle deviation of both the left and right vocal folds to the estimated glottal midline on the segmented glottis masks. To get better masks, we introduce a diffusion-based refinement that follows traditional U-Net segmentation to reduce false positives. We conducted several ablation studies to demonstrate the effectiveness of each module and modalities in the proposed MLVAS. The experimental results on a public segmentation dataset show the effectiveness of our proposed segmentation module. In addition, unilateral VFP classification results on a real-world clinic dataset demonstrate MLVAS's ability of providing reliable and objective metrics as well as visualization for assisted clinical diagnosis.
Abstract（参考訳）: 本稿では,MLVAS(Multimodal Laryngoscopic Video Analyzing System)について述べる。本システムは,映像に基づく声門検出と音声キーワードスポッティング手法を統合し,映像データと音声データの両方を解析し,患者の発声を識別し,ビデオハイライトを精査し,声帯運動の最適な検査を確実にする。生の喉頭ビデオからキービデオセグメントを抽出する以外に、MLVASはVocal Fold Paralysis(VFP)検出に有効な音声および視覚的特徴を生成することができる。事前訓練されたオーディオエンコーダを使用して、患者の音声を符号化し、オーディオ機能を取得する。左右両方の声帯の角度偏差を, 分割した声帯マスク上で推定した声門正中線に測定することにより, 視覚的特徴が生成される。マスクを改良するために,従来のU-Netセグメンテーションに従えば偽陽性を低減できる拡散型改良を導入する。 MLVASにおける各モジュールの有効性とモダリティについて,いくつかのアブレーション実験を行った。公開セグメンテーションデータセットの実験結果は,提案したセグメンテーションモジュールの有効性を示す。さらに、現実のクリニックデータセットを用いた片側VFP分類の結果は、MLVASが信頼性と客観的な指標を提供する能力と、診断支援のための可視化能力を示している。

関連論文リスト

AVPDN: Learning Motion-Robust and Scale-Adaptive Representations for Video-Based Polyp Detection [0.0682074616451595]
大腸内視鏡画像における多目的ポリープ検出のための頑健なフレームワークであるadaptive Video Polyp Detection Network (AVPDN)を提案する。 AVPDNにはAdaptive Feature Interaction and Augmentation (AFIA)モジュールとScale-Aware Context Integration (SACI)モジュールという2つの重要なコンポーネントが含まれている。提案手法の有効性と一般化能力について,いくつかの挑戦的な公開ベンチマーク実験を行った。
論文参考訳（メタデータ） (2025-08-05T13:59:18Z)
MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer [6.520396145278936]
本稿では,映像クエリに基づくビデオクリップのローカライゼーション(VQ)手法を提案する。 MCATはその解剖学の標準フレームを含むビデオクリップを返却し、潜在的な異常の徹底的なスクリーニングを容易にする。このモデルでは, 超音波データセットでは10%, 13% mIoU, Ego4Dデータセットでは5.35% mIoU, 96%少ないトークンでは10%, 13% mIoUで, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2025-04-08T14:29:15Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video [13.231546105751015]
医療画像用マルチモーダル生成装置MMSummaryについて,特に胎児超音波検査を中心に紹介した。 MMSummaryは3段階のパイプラインとして設計されており、解剖学的検出からキャプション、最後にセグメンテーションと測定まで進歩している。報告された実験に基づいて、スキャン時間を約31.5%削減し、ワークフロー効率を向上させる可能性を示唆している。
論文参考訳（メタデータ） (2024-08-07T13:30:58Z)
Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。 VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-29T23:19:28Z)
Multi-View Spectrogram Transformer for Respiratory Sound Classification [32.346046623638394]
視覚変換器に時間周波数特性の異なるビューを埋め込むために、MVST(Multi-View Spectrogram Transformer)を提案する。 ICBHIデータセットによる実験結果から,提案したMVSTは呼吸音の分類方法よりも有意に優れていた。
論文参考訳（メタデータ） (2023-11-16T08:17:02Z)
A Unified Approach for Comprehensive Analysis of Various Spectral and Tissue Doppler Echocardiography [3.7775754350457746]
本稿では、コンボリューションニューラルネットワークを用いた新しい統合フレームワークを導入し、スペクトルおよび組織ドプラ心エコー画像の包括的解析を行った。ネットワークは、新しいドップラー形状の埋め込みとアンチエイリアスモジュールによって、様々なドップラービューにまたがる重要な特徴を自動的に認識する。実験結果から, ダイス類似度係数 (DSC) や結合上の交叉 (IoU) など, 性能指標における一貫したアウトパフォーマンスを示す。
論文参考訳（メタデータ） (2023-11-14T15:10:05Z)
Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文参考訳（メタデータ） (2023-10-25T08:55:48Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Analysis and Detection of Pathological Voice using Glottal Source Features [18.80191660913831]
準閉鎖相 (QCP) のスロットル逆フィルタリング法を用いて, 声門音源の特徴を推定し, 声門音源の特徴を抽出した。我々はQCPとZFFによって計算された震源波形からメル周波数ケプストラル係数(MFCC)を導出する。特徴分析の結果,声門源には正常な声と病理的な声を識別する情報が含まれていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-25T12:14:25Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
GEMTrans: A General, Echocardiography-based, Multi-Level Transformer Framework for Cardiovascular Diagnosis [14.737295160286939]
視覚ベースの機械学習(ML)手法は、検証の二次レイヤとして人気を集めている。本稿では,説明可能性を提供する汎用のマルチレベルトランス(GEMTrans)フレームワークを提案する。大動脈狭窄症(AS)の重症度検出と排卵率(EF)の2つの重要な課題を考慮し,本フレームワークの柔軟性を示す。
論文参考訳（メタデータ） (2023-08-25T07:30:18Z)
DopUS-Net: Quality-Aware Robotic Ultrasound Imaging based on Doppler Signal [48.97719097435527]
DopUS-Netはドップラー画像とBモード画像を組み合わせることで、小血管のセグメンテーション精度と堅牢性を高める。動脈再同定モジュールは、リアルタイムセグメンテーション結果を質的に評価し、拡張ドップラー画像に対するプローブポーズを自動的に最適化する。
論文参考訳（メタデータ） (2023-05-15T18:19:29Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。実験は、0.675と接地軌道変数の相関を達成した。
論文参考訳（メタデータ） (2022-03-11T07:27:42Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)
RespVAD: Voice Activity Detection via Video-Extracted Respiration Patterns [5.716047866174048]
音声活動検出(Voice Activity Detection, VAD)とは、音声やビデオなどのデジタル信号における人間の音声の領域を識別するタスクである。呼吸は音声生成の主要なエネルギー源となります話者のビデオから抽出した呼吸パターンを用いた音声非依存型VAD手法を開発した。
論文参考訳（メタデータ） (2020-08-21T13:26:24Z)
Multi-Modal Video Forensic Platform for Investigating Post-Terrorist Attack Scenarios [55.82693757287532]
大規模ビデオ分析プラットフォーム(VAP)は、容疑者を特定し証拠を確保するために法執行機関(LEA)を支援する。本稿では,視覚・音声分析モジュールを統合し,監視カメラからの情報と目撃者からの映像アップロードを融合するビデオ分析プラットフォームを提案する。
論文参考訳（メタデータ） (2020-04-02T14:29:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。