論文の概要: BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification
- arxiv url: http://arxiv.org/abs/2406.06786v1
- Date: Mon, 10 Jun 2024 20:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:15:44.126727
- Title: BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification
- Title(参考訳): BTS:メタデータを用いた呼吸音分類のためのブリッジテキストと音響モーダリティ
- Authors: June-Woo Kim, Miika Toikkanen, Yera Choi, Seoung-Eun Moon, Ho-Young Jung,
- Abstract要約: 音声サンプルのメタデータから派生した自由テキスト記述を用いて,事前学習したテキスト・オーディオ・マルチモーダルモデルを微調整する。
提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Respiratory sound classification (RSC) is challenging due to varied acoustic signatures, primarily influenced by patient demographics and recording environments. To address this issue, we introduce a text-audio multimodal model that utilizes metadata of respiratory sounds, which provides useful complementary information for RSC. Specifically, we fine-tune a pretrained text-audio multimodal model using free-text descriptions derived from the sound samples' metadata which includes the gender and age of patients, type of recording devices, and recording location on the patient's body. Our method achieves state-of-the-art performance on the ICBHI dataset, surpassing the previous best result by a notable margin of 1.17%. This result validates the effectiveness of leveraging metadata and respiratory sound samples in enhancing RSC performance. Additionally, we investigate the model performance in the case where metadata is partially unavailable, which may occur in real-world clinical setting.
- Abstract(参考訳): 呼吸音分類 (RSC) は, 主に患者の人口動態や記録環境の影響を受け, 様々な音響的特徴により困難である。
この問題に対処するために,呼吸音のメタデータを利用したテキスト・オーディオ・マルチモーダルモデルを導入し,RCCに有用な補完情報を提供する。
具体的には、患者の性別や年齢、記録装置の種類、患者の身体上の記録位置などを含む音声サンプルのメタデータから得られる自由テキスト記述を用いて、事前訓練されたテキスト・オーディオ・マルチモーダルモデルを微調整する。
提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
その結果,RCC性能向上におけるメタデータと呼吸音の有効利用の有効性が検証された。
さらに,メタデータが部分的に利用できない場合のモデル性能について検討した。
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data [3.0113849517062303]
本研究では,小データセットの制約を考慮した臨床環境下での音声分類のためのディープラーニングモデルの評価を行う。
我々は、DenseNetやConvNeXtを含むCNNを、ViT、SWIN、ASTといったトランスフォーマーモデルとともに分析する。
本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングを行うことの利点を強調した。
論文 参考訳(メタデータ) (2024-02-07T16:41:11Z) - Stethoscope-guided Supervised Contrastive Learning for Cross-domain
Adaptation on Respiratory Sound Classification [1.690115983364313]
本稿では、ソースドメインから異なるターゲットドメインに知識を転送するクロスドメイン適応手法を提案する。
特に、個々の領域として異なる聴診器タイプを考慮し、新しい聴診器誘導型教師付きコントラスト学習手法を提案する。
ICBHIデータセットの実験結果から,提案手法はドメイン依存性の低減とICBHIスコア61.71%の達成に有効であることが示された。
論文 参考訳(メタデータ) (2023-12-15T08:34:31Z) - Adversarial Fine-tuning using Generated Respiratory Sound to Address
Class Imbalance [1.3686993145787067]
本稿では,条件付きニューラルボコーダとして音声拡散モデルを用いて,不均衡な呼吸音データを増やすための簡単なアプローチを提案する。
また, 合成音と実呼吸音の特徴を整合させ, 呼吸音の分類性能を向上させるために, 簡易かつ効果的な対向微調整法を実証した。
論文 参考訳(メタデータ) (2023-11-11T05:02:54Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on
Respiratory Sound Classification [19.180927437627282]
本稿では,潜在空間における混合表現を識別するために,新規かつ効果的なパッチ・ミクス・コントラスト学習を提案する。
提案手法はICBHIデータセット上での最先端性能を実現し,4.08%の改善により先行先行スコアを上回った。
論文 参考訳(メタデータ) (2023-05-23T13:04:07Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。