論文の概要: HuPER: A Human-Inspired Framework for Phonetic Perception
- arxiv url: http://arxiv.org/abs/2602.01634v1
- Date: Mon, 02 Feb 2026 04:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.906325
- Title: HuPER: A Human-Inspired Framework for Phonetic Perception
- Title(参考訳): HuPER: 音声知覚のためのヒューマンインスパイアされたフレームワーク
- Authors: Chenxu Guo, Jiachen Lian, Yisi Liu, Baihe Huang, Shriyaa Narayanan, Cheol Jun Cho, Gopala Anumanchipalli,
- Abstract要約: HuPERは、音響音響的証拠と言語的知識に対する適応的推論として音韻知覚をモデル化する。
HuPERは5つのイングランドのベンチマークで最先端の音声誤り率を達成し、95の未知の言語に強いゼロショット転送を行う。
- 参考スコア(独自算出の注目度): 20.341016718466744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose HuPER, a human-inspired framework that models phonetic perception as adaptive inference over acoustic-phonetics evidence and linguistic knowledge. With only 100 hours of training data, HuPER achieves state-of-the-art phonetic error rates on five English benchmarks and strong zero-shot transfer to 95 unseen languages. HuPER is also the first framework to enable adaptive, multi-path phonetic perception under diverse acoustic conditions. All training data, models, and code are open-sourced. Code and demo avaliable at https://github.com/HuPER29/HuPER.
- Abstract(参考訳): 本稿では,HuPERを提案する。HuPERは,音響音響学的な証拠や言語的知識に対する適応的推論として音韻知覚をモデル化するフレームワークである。
たった100時間のトレーニングデータで、HuPERは5つのイングランドのベンチマークで最先端の音声誤り率を達成し、95の未知の言語に強いゼロショット転送を行う。
HuPERは、様々な音響条件下で適応的でマルチパスの音声知覚を可能にする最初のフレームワークでもある。
すべてのトレーニングデータ、モデル、コードはオープンソースである。
コードとデモはhttps://github.com/HuPER29/HuPER.comで公開されている。
関連論文リスト
- MauBERT: Universal Phonetic Inductive Biases for Few-Shot Acoustic Units Discovery [12.442501000586995]
MauBERTはHuBERTの多言語拡張であり、言語間音声表現学習に調音機能を利用する。
我々のモデルは多言語データから学習し、音声特徴や電話を予測し、言語に依存しない表現をもたらす。
我々は、MauBERTモデルが最先端の多言語自己教師型学習モデルよりも文脈不変表現を生成することを示す。
論文 参考訳(メタデータ) (2025-12-22T17:47:49Z) - CUPE: Contextless Universal Phoneme Encoder for Language-Agnostic Speech Processing [5.466034990848432]
CUPEは120ミリ秒でキー音素の機能をキャプチャする軽量モデルである。
CUPEは、すべての言語に共通する基本音響パターンを学習することで、競合する言語間性能を実現する。
論文 参考訳(メタデータ) (2025-08-21T07:27:10Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces [10.895310812568084]
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-07-23T22:18:47Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。