論文の概要: Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions
- arxiv url: http://arxiv.org/abs/2605.29862v1
- Date: Thu, 28 May 2026 12:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.248088
- Title: Mitigating Stethoscope-Induced Shortcuts in Respiratory Sound Classification under Federated Domain Generalization with Causality-Inspired Interventions
- Title(参考訳): フェデレーション領域の一般化と因果性刺激による呼吸音分類におけるステレオスコープによるショートカットの緩和
- Authors: Heejoon Koo, Yoon Tae Kim, Miika Toikkanen, June-Woo Kim,
- Abstract要約: AI駆動型呼吸音分類(RSC)は肺疾患の自動検出を約束するが、マルチサイト展開は聴診器間変動によって妨げられる。
ステススコープによるデバイスシフト下でのRCCに対するFedDG(Federated Domain Generalization)の定式化を導入する。
i) コンテンツ保存型摂動を行う因果性インスパイアされたデバイススタイル介入ネットワーク,(ii) メタデータショートカットを中和する逆ファクトテキスト拡張,(iii) クライアント間のデバイス不変表現を容易にする勾配アライメント,の2つを組み合わせて,因果性インスパイアされたマルチモーダルFedDGフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.445798332197724
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI-driven respiratory sound classification (RSC) is promising for automated pulmonary disease detection, yet multi-site deployment is hindered by inter-stethoscope variability. We introduce a federated domain generalization (FedDG) formulation for RSC under stethoscope-induced device shifts, where clients use heterogeneous devices and the model is evaluated on unseen devices. Our empirical analysis shows that stethoscope-induced style and disease-specific content are tightly entangled, making deterministic style removal unreliable. In response, we propose a causality-inspired multimodal FedDG framework that combines: (i) a causality-inspired device style intervention network that performs content-preserving style perturbations, (ii) counterfactual text augmentation that neutralizes metadata shortcuts, and (iii) gradient alignment that facilitates device-invariant representations across clients. Built on a multimodal language-audio pretraining model, it outperforms conventional data augmentation and federated learning baselines in leave-one-device-out validation on ICBHI and SPRSound datasets. Code will be released upon publication.
- Abstract(参考訳): AI駆動型呼吸音分類(RSC)は肺疾患の自動検出を約束するが、マルチサイト展開は聴診器間変動によって妨げられる。
ステススコープにより誘導されるデバイスシフト下でのRCCのFedDG(Federated Domain Generalization)の定式化を導入し、クライアントは異種デバイスを使用し、そのモデルは見えないデバイス上で評価する。
経験的分析により, 聴診器により誘発されるスタイルと疾患特異的な内容が密に絡み合っており, 決定論的スタイルの除去が不可能であることが明らかとなった。
対応として, 因果性に着想を得たマルチモーダルFedDGフレームワークを提案する。
(i)コンテンツ保存型摂動を行う因果性インスパイアされたデバイススタイル介入ネットワーク
(二 メタデータショートカットを中和する偽造テキスト増補、及び
(iii)クライアント間のデバイス不変表現を容易にする勾配アライメント。
マルチモーダル言語-オーディオ事前学習モデルに基づいて構築され、IABHIデータセットとSPRSoundデータセット上での端末間検証において、従来のデータ拡張とフェデレーション学習ベースラインよりも優れています。
コードは出版時に公開される。
関連論文リスト
- AnchorDiff: Topology-Aware Masked Diffusion with Confidence-based Rewriting for Radiology Report Generation [2.2748974006378933]
医用画像から臨床的に正確なテキストレポートを自動生成することを目的とする。
既存の手法は自己回帰(AR)言語モデルに依存しており、因果依存性構造は生成を一方向の左から右へのプロセスに制限する。
本稿では,知識グラフに基づく臨床アンカーを拡散言語モデリングに統合したRRGのための最初のマスク付き拡散フレームワークであるAnchorDiffを提案する。
論文 参考訳(メタデータ) (2026-05-16T16:42:43Z) - RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering [17.905364553833724]
本稿では,呼吸音声質問応答のための階層的経路生成モデルであるRAMoEA-QAを紹介する。
複数の質問タイプを統一し、単一のマルチモーダルシステム内で離散的および連続的ターゲットの両方をサポートする。
パラメータのオーバーヘッドを最小限に抑えて、強いベースラインとルーティングアブリケーションを一貫して上回る。
論文 参考訳(メタデータ) (2026-03-06T18:29:15Z) - Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Stethoscope-guided Supervised Contrastive Learning for Cross-domain
Adaptation on Respiratory Sound Classification [1.690115983364313]
本稿では、ソースドメインから異なるターゲットドメインに知識を転送するクロスドメイン適応手法を提案する。
特に、個々の領域として異なる聴診器タイプを考慮し、新しい聴診器誘導型教師付きコントラスト学習手法を提案する。
ICBHIデータセットの実験結果から,提案手法はドメイン依存性の低減とICBHIスコア61.71%の達成に有効であることが示された。
論文 参考訳(メタデータ) (2023-12-15T08:34:31Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。