論文の概要: EvolveCaptions: Empowering DHH Users Through Real-Time Collaborative Captioning
- arxiv url: http://arxiv.org/abs/2510.02181v1
- Date: Thu, 02 Oct 2025 16:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.290982
- Title: EvolveCaptions: Empowering DHH Users Through Real-Time Collaborative Captioning
- Title(参考訳): EvolveCaptions:リアルタイムのコラボレーティブなキャプションを通じてDHHユーザーに力を与える
- Authors: Liang-Yuan Wu, Dhruv Jain,
- Abstract要約: EvolveCaptionsは、最小限の努力で、その場でのパーソナライゼーションをサポートするリアルタイムで協調的なASR適応システムである。
12名のDHHと6名の聴力者を対象にした調査では、EvolveCaptionsは1時間以内に全DHHユーザに対してワードエラー率(WER)を低減した。
- 参考スコア(独自算出の注目度): 5.603925048766304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems often fail to accurately transcribe speech from Deaf and Hard of Hearing (DHH) individuals, especially during real-time conversations. Existing personalization approaches typically require extensive pre-recorded data and place the burden of adaptation on the DHH speaker. We present EvolveCaptions, a real-time, collaborative ASR adaptation system that supports in-situ personalization with minimal effort. Hearing participants correct ASR errors during live conversations. Based on these corrections, the system generates short, phonetically targeted prompts for the DHH speaker to record, which are then used to fine-tune the ASR model. In a study with 12 DHH and six hearing participants, EvolveCaptions reduced Word Error Rate (WER) across all DHH users within one hour of use, using only five minutes of recording time on average. Participants described the system as intuitive, low-effort, and well-integrated into communication. These findings demonstrate the promise of collaborative, real-time ASR adaptation for more equitable communication.
- Abstract(参考訳): 自動音声認識(ASR)システムは、特にリアルタイム会話において、難聴者や難聴者(DHH)から音声を正確に書き起こすことに失敗することが多い。
既存のパーソナライズ手法は、通常、広範な事前記録データを必要とし、DHH話者に適応の重荷を課す。
EvolveCaptionsは、最小限の努力で、その場でのパーソナライゼーションをサポートするリアルタイムで協調的なASR適応システムである。
聴覚障害者はライブ会話中にASRの誤りを訂正する。
これらの補正に基づいて、システムはDHH話者が録音する短い音声的プロンプトを生成し、ASRモデルを微調整する。
12人のDHHと6人の聴力者を対象にした調査では、EvolveCaptionsは平均5分間の録音時間を用いて、全DHHユーザーのワードエラー率(WER)を1時間以内で削減した。
参加者はシステムが直感的で、低便で、コミュニケーションにうまく統合されていると説明した。
これらの結果は、より公平なコミュニケーションのための協調的リアルタイムASR適応の可能性を示唆している。
関連論文リスト
- Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition [8.838919369202525]
先天性障害による音声障害は,音声認識システムにおいて大きな課題となる。
Whisperのような最先端のASRモデルは、トレーニングデータの可用性の制限と高い音響可変性のために、まだ非ノルマ的音声に苦慮している。
本研究では,データ効率のよい微調整のためのベイジアン低ランク適応に基づく新しいASRパーソナライズ手法を提案する。
論文 参考訳(メタデータ) (2025-09-23T13:44:58Z) - Interactive Real-Time Speaker Diarization Correction with Human Feedback [2.149447183865652]
本研究では,LLMを用いた話者ダイアリゼーション補正システムを提案する。
本システムでは、DERを9.92%削減し、話者混同誤差を44.23%削減する。
論文 参考訳(メタデータ) (2025-09-22T20:01:20Z) - Recent Trends in Distant Conversational Speech Recognition: A Review of CHiME-7 and 8 DASR Challenges [58.80034860169605]
CHiME-7と8つの遠隔音声認識(DASR)の課題は、多チャンネル、一般化可能、共同自動音声認識(ASR)、対話音声のダイアリゼーションである。
本稿では,参加者からの重要傾向を分析しつつ,課題の設計,評価指標,データセット,ベースラインシステムについて概説する。
論文 参考訳(メタデータ) (2025-07-24T07:56:24Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Minuteman: Machine and Human Joining Forces in Meeting Summarization [2.900810893770134]
本稿では,効率的なセミオートマチックミーティングを実現するための新しいツールを提案する。
このツールは、ユーザーが共同で編集できるライブの書き起こしとライブミーティングの要約を提供する。
結果として得られたアプリケーションは、メモ係の認知的負荷を緩和し、ミーティングの一部が欠席したり、焦点が合わなかったりして、簡単に追いつくことができる。
論文 参考訳(メタデータ) (2023-09-11T07:10:47Z) - The timing bottleneck: Why timing and overlap are mission-critical for
conversational user interfaces, speech recognition and dialogue systems [0.11470070927586018]
対話型および多言語対応のための5つの主要な商用ASRシステムの評価を行った。
6言語での自然な会話データに対する単語誤り率の差は小さく、重複は依然として重要な課題である。
本研究は,対話型音声技術の構築に最も注意を要する現象を同定し,会話型ASRの現状の評価,多次元誤り解析と評価に寄与することを支援する。
論文 参考訳(メタデータ) (2023-07-28T11:38:05Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。