論文の概要: Bridging the Reality Gap: Efficient Adaptation of ASR systems for Challenging Low-Resource Domains
- arxiv url: http://arxiv.org/abs/2512.16401v1
- Date: Thu, 18 Dec 2025 10:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.020139
- Title: Bridging the Reality Gap: Efficient Adaptation of ASR systems for Challenging Low-Resource Domains
- Title(参考訳): 現実のギャップを埋める:低リソース領域に適応するASRシステムの効率的な適応
- Authors: Darshil Chauhan, Adityasinh Solanki, Vansh Patel, Kanav Kapoor, Ritvik Jain, Aditya Bansal, Dhruv Kumar, Prateek Narang,
- Abstract要約: IndicWav2Vecは実世界の臨床オーディオに展開すると40.94%の単語誤り率(WER)に低下する。
これらの課題に対処し、ASRをデプロイに近づけるために、効率的なプライバシー保護適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0281425889005014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) holds immense potential to streamline clinical documentation, such as digitizing handwritten prescriptions and reports, thereby increasing patient throughput and reducing costs in resource-constrained sectors like rural healthcare. However, realizing this utility is currently obstructed by significant technical barriers: strict data privacy constraints, limited computational resources, and severe acoustic domain shifts. We quantify this gap by showing that a robust multilingual model (IndicWav2Vec) degrades to a stark 40.94% Word Error Rate (WER) when deployed on real-world clinical audio (Gram Vaani), rendering it unusable for practical applications. To address these challenges and bring ASR closer to deployment, we propose an efficient, privacy-preserving adaptation framework. We employ Low-Rank Adaptation (LoRA) to enable continual learning from incoming data streams directly on edge devices, ensuring patient data confidentiality. Our strategy yields a 17.1% relative improvement in WER on the target domain. Furthermore, by integrating multi-domain experience replay, we reduce catastrophic forgetting by 47% compared to naive adaptation. These results demonstrate a viable pathway for building reliable, self-improving ASR systems that can operate effectively within the constraints of high-impact real-world environments.
- Abstract(参考訳): 自動音声認識(ASR)は、手書き処方薬や報告のデジタル化など、臨床資料の合理化に大きな可能性を秘めている。
しかし、このユーティリティを実現するには、厳格なデータプライバシ制約、限られた計算リソース、厳しい音響ドメインシフトなど、重要な技術的障壁がある。
実際の臨床オーディオ(Gram Vaani)に展開すると、頑健な多言語モデル(IndicWav2Vec)が40.94%のワードエラー率(WER)に低下し、実用的な用途では利用できないことを示すことで、このギャップを定量化する。
これらの課題に対処し、ASRをデプロイに近づけるために、効率的なプライバシー保護適応フレームワークを提案する。
我々はローランド適応(LoRA)を用いて、エッジデバイス上での入力データストリームからの連続的な学習を可能にし、患者のデータの機密性を保証します。
我々の戦略はWERを目標領域で相対的に17.1%向上させる。
さらに,マルチドメイン体験リプレイを統合することで,ナイーブ適応に比べて破滅的忘れを47%削減する。
これらの結果は、高影響の現実環境の制約の中で効果的に動作可能な、信頼性の高い自己改善型ASRシステムを構築するための実行可能な経路を示す。
関連論文リスト
- Fine-Tuned LLMs Know They Don't Know: A Parameter-Efficient Approach to Recovering Honesty [48.593888815135934]
大規模言語モデル(LLM)は、高い領域での安全なデプロイメントにおいてますます重要になっている。
既存のリカバリ手法はデータ集約的なグローバルパラメータ調整に依存しており、SFTがモデルの知識境界を認識する能力を深く損なうことを暗黙的に仮定している。
我々は,この抑制された能力を外科的に修復するために,Honesty-Critical Neurons Restoration (HCNR)を提案する。
論文 参考訳(メタデータ) (2025-11-17T05:30:48Z) - Constrained Adversarial Perturbation [16.05659740749269]
UAP(Universal Adversarial Perturbations)は、ストレステストモデルロバストネスとスケーラブルな対向トレーニングの両方のための強力なツールとして登場した。
本稿では、勾配に基づく交互最適化手法を用いて、この問題を解決する効率的なアルゴリズムである Constrained Adversarial Perturbation (CAP) を提案する。
論文 参考訳(メタデータ) (2025-10-17T14:44:20Z) - Bridging the Synthetic-Real Gap: Supervised Domain Adaptation for Robust Spacecraft 6-DoF Pose Estimation [13.83897333268682]
宇宙船のポース推定は、ランデブー、ドッキング、軌道上のドッキングのような自律的な宇宙活動の基本的な能力である。
既存のドメイン適応アプローチは、この問題を軽減することを目的としているが、ラベル付きターゲットサンプルの少ない数が利用できる場合、しばしば性能が低下する。
本稿では,SPEキーポイント回帰に適したSDA(Supervised Domain Adaptation)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T08:03:05Z) - Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset [6.343399421398501]
非医療オピオイドの使用は公衆衛生上の緊急の課題である。
ソーシャルメディアの物語から、自己報告結果の2つのカテゴリを抽出するために、名前付きエンティティ認識(NER)フレームワークを提案する。
我々は、ゼロショットと少数ショットのインコンテキスト学習設定下で、微調整エンコーダモデルと最先端の大規模言語モデル(LLM)の両方を評価する。
論文 参考訳(メタデータ) (2025-08-26T23:09:43Z) - Practically adaptable CPABE based Health-Records sharing framework [0.0]
CPABEとOAuth2.0をベースとした、効率的なアクセス制御と認可のためのフレームワークを提案し、単一のクライアントアプリケーション間でのEHR共有の実現性を改善した。
提案するフレームワークの実装とその分析比較は,性能とレイテンシの最小化の観点から,その可能性を示唆している。
論文 参考訳(メタデータ) (2024-03-11T00:23:17Z) - Cloud-based Federated Learning Framework for MRI Segmentation [0.10878040851637999]
本稿では,農村医療施設における脳組織セグメンテーションに適した新しい枠組みを提案する。
このフレームワークは、田園部医療施設にローカルに展開する改良モデル(RM)と密接な強化学習環境を採用している。
我々は,限られたデータセットでネットワークをトレーニングし,大幅な性能向上を観察することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-03-01T03:39:17Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。
WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文 参考訳(メタデータ) (2021-04-04T13:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。