論文の概要: Navigating the Reality Gap: Privacy-Preserving Adaptation of ASR for Challenging Low-Resource Domains
- arxiv url: http://arxiv.org/abs/2512.16401v2
- Date: Mon, 22 Dec 2025 16:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 14:49:56.297899
- Title: Navigating the Reality Gap: Privacy-Preserving Adaptation of ASR for Challenging Low-Resource Domains
- Title(参考訳): 現実のギャップをナビゲートする:低リソース領域へのASRのプライバシ保護適応
- Authors: Darshil Chauhan, Adityasinh Solanki, Vansh Patel, Kanav Kapoor, Ritvik Jain, Aditya Bansal, Pratik Narang, Dhruv Kumar,
- Abstract要約: インドにおける多言語モデル(IndicWav2Vec)は、インドの農村部の臨床データに対して40.94%のWERに低下し、使用不能となることを示す。
これを解決するために、ローランド適応(LoRA)による局所的かつ連続的な適応を可能にするゼロデータ抽出フレームワークについて検討する。
以上の結果から,マルチドメインエクスペリエンス・リプレイ(ER)が主性能向上を達成し,目標WERの17.1%の相対的な改善を実現した。
- 参考スコア(独自算出の注目度): 4.585227671447896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) holds immense potential to assist in clinical documentation and patient report generation, particularly in resource-constrained regions. However, deployment is currently hindered by a technical deadlock: a severe "Reality Gap" between laboratory performance and noisy, real-world clinical audio, coupled with strict privacy and resource constraints. We quantify this gap, showing that a robust multilingual model (IndicWav2Vec) degrades to a 40.94% WER on rural clinical data from India, rendering it unusable. To address this, we explore a zero-data-exfiltration framework enabling localized, continual adaptation via Low-Rank Adaptation (LoRA). We conduct a rigorous investigative study of continual learning strategies, characterizing the trade-offs between data-driven and parameter-driven stability. Our results demonstrate that multi-domain Experience Replay (ER) yields the primary performance gains, achieving a 17.1% relative improvement in target WER and reducing catastrophic forgetting by 55% compared to naive adaptation. Furthermore, we observed that standard Elastic Weight Consolidation (EWC) faced numerical stability challenges when applied to LoRA in noisy environments. Our experiments show that a stabilized, linearized formulation effectively controls gradient magnitudes and enables stable convergence. Finally, we verify via a domain-specific spot check that acoustic adaptation is a fundamental prerequisite for usability which cannot be bypassed by language models alone.
- Abstract(参考訳): 自動音声認識(ASR)は、特に資源制約地域において、臨床文書作成や患者レポート作成を支援する大きな可能性を秘めている。
しかし、現在展開は技術的なデッドロックによって妨げられている。実験室のパフォーマンスとノイズの多い実世界の臨床オーディオ、厳格なプライバシーとリソースの制約の間の厳しい"現実のギャップ"である。
IndicWav2Vecはインドの農村部の臨床データに対して40.94%のWERに低下し、使用不可能であることを示す。
そこで本研究では,ローランド適応(LoRA)による局所的かつ連続的な適応を可能にするゼロデータ抽出フレームワークについて検討する。
我々は,データ駆動型とパラメータ駆動型安定性のトレードオフを特徴付ける連続学習戦略の厳密な調査研究を行う。
以上の結果から,マルチドメインエクスペリエンス・リプレイ(ER)が主性能向上を達成し,目標WERの17.1%の相対的な改善を実現した。
さらに, 騒音環境下でのロラに適用した場合, 標準の弾性重畳法 (EWC) が数値安定性の課題に直面していることを明らかにした。
実験により, 線形に安定な定式化が勾配の等級を効果的に制御し, 安定収束を可能にすることを示した。
最後に、ドメイン固有のスポットチェックを通じて、アコースティックアダプティブが、言語モデルだけではバイパスできないユーザビリティの基本的な前提条件であることを検証する。
関連論文リスト
- Fine-Tuned LLMs Know They Don't Know: A Parameter-Efficient Approach to Recovering Honesty [48.593888815135934]
大規模言語モデル(LLM)は、高い領域での安全なデプロイメントにおいてますます重要になっている。
既存のリカバリ手法はデータ集約的なグローバルパラメータ調整に依存しており、SFTがモデルの知識境界を認識する能力を深く損なうことを暗黙的に仮定している。
我々は,この抑制された能力を外科的に修復するために,Honesty-Critical Neurons Restoration (HCNR)を提案する。
論文 参考訳(メタデータ) (2025-11-17T05:30:48Z) - Constrained Adversarial Perturbation [16.05659740749269]
UAP(Universal Adversarial Perturbations)は、ストレステストモデルロバストネスとスケーラブルな対向トレーニングの両方のための強力なツールとして登場した。
本稿では、勾配に基づく交互最適化手法を用いて、この問題を解決する効率的なアルゴリズムである Constrained Adversarial Perturbation (CAP) を提案する。
論文 参考訳(メタデータ) (2025-10-17T14:44:20Z) - Bridging the Synthetic-Real Gap: Supervised Domain Adaptation for Robust Spacecraft 6-DoF Pose Estimation [13.83897333268682]
宇宙船のポース推定は、ランデブー、ドッキング、軌道上のドッキングのような自律的な宇宙活動の基本的な能力である。
既存のドメイン適応アプローチは、この問題を軽減することを目的としているが、ラベル付きターゲットサンプルの少ない数が利用できる場合、しばしば性能が低下する。
本稿では,SPEキーポイント回帰に適したSDA(Supervised Domain Adaptation)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T08:03:05Z) - Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset [6.343399421398501]
非医療オピオイドの使用は公衆衛生上の緊急の課題である。
ソーシャルメディアの物語から、自己報告結果の2つのカテゴリを抽出するために、名前付きエンティティ認識(NER)フレームワークを提案する。
我々は、ゼロショットと少数ショットのインコンテキスト学習設定下で、微調整エンコーダモデルと最先端の大規模言語モデル(LLM)の両方を評価する。
論文 参考訳(メタデータ) (2025-08-26T23:09:43Z) - Practically adaptable CPABE based Health-Records sharing framework [0.0]
CPABEとOAuth2.0をベースとした、効率的なアクセス制御と認可のためのフレームワークを提案し、単一のクライアントアプリケーション間でのEHR共有の実現性を改善した。
提案するフレームワークの実装とその分析比較は,性能とレイテンシの最小化の観点から,その可能性を示唆している。
論文 参考訳(メタデータ) (2024-03-11T00:23:17Z) - Cloud-based Federated Learning Framework for MRI Segmentation [0.10878040851637999]
本稿では,農村医療施設における脳組織セグメンテーションに適した新しい枠組みを提案する。
このフレームワークは、田園部医療施設にローカルに展開する改良モデル(RM)と密接な強化学習環境を採用している。
我々は,限られたデータセットでネットワークをトレーニングし,大幅な性能向上を観察することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-01T03:39:17Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。
WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文 参考訳(メタデータ) (2021-04-04T13:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。