論文の概要: ProtoSound: A Personalized and Scalable Sound Recognition System for
Deaf and Hard-of-Hearing Users
- arxiv url: http://arxiv.org/abs/2202.11134v1
- Date: Tue, 22 Feb 2022 19:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 16:25:43.208056
- Title: ProtoSound: A Personalized and Scalable Sound Recognition System for
Deaf and Hard-of-Hearing Users
- Title(参考訳): ProtoSound:聴覚障害者のためのパーソナライズされたスケーラブルな音声認識システム
- Authors: Dhruv Jain, Khoa Huynh Anh Nguyen, Steven Goodman, Rachel
Grossman-Kahn, Hung Ngo, Aditya Kusupati, Ruofei Du, Alex Olwal, Leah
Findlater, Jon E. Froehlich
- Abstract要約: ProtoSoundは、いくつかの例を記録して音声認識モデルをカスタマイズするインタラクティブシステムである。
難聴者や難聴者(DHH)の聴覚ニーズを調べる先行研究が動機となっている。
ProtoSoundは、様々な音環境にまたがるリアルタイムおよび正確に学習された音で、デバイス上でモデルをパーソナライズした。
- 参考スコア(独自算出の注目度): 31.002226685486225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances have enabled automatic sound recognition systems for deaf and
hard of hearing (DHH) users on mobile devices. However, these tools use
pre-trained, generic sound recognition models, which do not meet the diverse
needs of DHH users. We introduce ProtoSound, an interactive system for
customizing sound recognition models by recording a few examples, thereby
enabling personalized and fine-grained categories. ProtoSound is motivated by
prior work examining sound awareness needs of DHH people and by a survey we
conducted with 472 DHH participants. To evaluate ProtoSound, we characterized
performance on two real-world sound datasets, showing significant improvement
over state-of-the-art (e.g., +9.7% accuracy on the first dataset). We then
deployed ProtoSound's end-user training and real-time recognition through a
mobile application and recruited 19 hearing participants who listened to the
real-world sounds and rated the accuracy across 56 locations (e.g., homes,
restaurants, parks). Results show that ProtoSound personalized the model
on-device in real-time and accurately learned sounds across diverse acoustic
contexts. We close by discussing open challenges in personalizable sound
recognition, including the need for better recording interfaces and algorithmic
improvements.
- Abstract(参考訳): 近年の進歩により、モバイルデバイス上での難聴者や難聴者(DHH)に対する音声認識システムの実現が進んでいる。
しかし、これらのツールは、DHHユーザの多様なニーズを満たすことなく、事前訓練された一般的な音声認識モデルを使用する。
そこで本研究では,いくつかの事例を収録して音声認識モデルをカスタマイズする対話型システムprotosoundを提案する。
ProtoSoundは,472人のDHH参加者を対象に実施した調査で,DHH者の聴覚に対する意識調査を行った。
protosoundを評価するために,実世界の2つのサウンドデータセットのパフォーマンスを特徴付け,最先端よりも大幅に改善した(最初のデータセットでは+9.7%の精度など)。
そして、モバイルアプリケーションを通じてProtoSoundのエンドユーザートレーニングとリアルタイム認識をデプロイし、現実世界の音を聞き、56箇所(家、レストラン、公園など)で精度を評価した19人の聞き取り参加者を募集した。
その結果、protosoundはデバイス上でモデルをパーソナライズし、さまざまな音響コンテキストで正確に学習した。
録音インタフェースの改善やアルゴリズムの改善など、パーソナライズ可能な音声認識におけるオープンな課題について議論を締めくくった。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Hearing Lips in Noise: Universal Viseme-Phoneme Mapping and Transfer for
Robust Audio-Visual Speech Recognition [21.477900473255264]
AVSRの強靭性を高めるために,雑音不変の視覚的モダリティを提案する。
人間の知覚のメカニズムに触発されて,モーダリティ伝達を実装するユニバーサルビセム・音素マッピング (UniVPM) 手法を提案する。
提案手法は, 各種ノイズ, 清潔な条件下での最先端性を実現する。
論文 参考訳(メタデータ) (2023-06-18T13:53:34Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Personal VAD 2.0: Optimizing Personal Voice Activity Detection for
On-Device Speech Recognition [19.262038608713755]
近年,デバイス上での音声認識(ASR)のパーソナライゼーションは爆発的な成長を遂げている。
パーソナライズされた音声活動検知器であるPersonal VAD 2.0は、ストリーミングオンデバイスASRシステムの一部として、ターゲット話者の音声活動を検出する。
論文 参考訳(メタデータ) (2022-04-08T00:49:19Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。