論文の概要: Hearings and mishearings: decrypting the spoken word
- arxiv url: http://arxiv.org/abs/2009.00429v1
- Date: Tue, 1 Sep 2020 13:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:37:01.010099
- Title: Hearings and mishearings: decrypting the spoken word
- Title(参考訳): 発声・誤聴:発声音声の復号化
- Authors: Anita Mehta, Jean-Marc Luck
- Abstract要約: 本研究では,誤聴の有無を考慮した個々の単語の音声知覚モデルを提案する。
例えば、単語長がしきい値以下である場合には、音声知覚が容易であることを示し、静的な遷移で識別する。
我々はこれを単語認識の力学に拡張し、個別の孤立した誤聴と連続した誤聴のクラスタの区別を強調する直感的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a model of the speech perception of individual words in the
presence of mishearings. This phenomenological approach is based on concepts
used in linguistics, and provides a formalism that is universal across
languages. We put forward an efficient two-parameter form for the word length
distribution, and introduce a simple representation of mishearings, which we
use in our subsequent modelling of word recognition. In a context-free
scenario, word recognition often occurs via anticipation when, part-way into a
word, we can correctly guess its full form. We give a quantitative estimate of
this anticipation threshold when no mishearings occur, in terms of model
parameters. As might be expected, the whole anticipation effect disappears when
there are sufficiently many mishearings. Our global approach to the problem of
speech perception is in the spirit of an optimisation problem. We show for
instance that speech perception is easy when the word length is less than a
threshold, to be identified with a static transition, and hard otherwise. We
extend this to the dynamics of word recognition, proposing an intuitive
approach highlighting the distinction between individual, isolated mishearings
and clusters of contiguous mishearings. At least in some parameter range, a
dynamical transition is manifest well before the static transition is reached,
as is the case for many other examples of complex systems.
- Abstract(参考訳): 本研究では,誤聴の有無を考慮した個々の単語の音声認識モデルを提案する。
この表現論的アプローチは、言語学で使われる概念に基づいており、言語にまたがる普遍的な形式主義を提供する。
本稿では,単語長分布の効率的な2パラメータ形式を提案し,単語認識のモデリングに用いた誤聴の簡単な表現を紹介した。
文脈のないシナリオでは、単語を部分的に入力すると、単語の完全な形を正確に推測することができる。
モデルパラメータの観点から,誤聴が発生しない場合の予測閾値を定量的に推定する。
予想通り、十分な数の誤聴がある場合、予測効果全体が消失する。
音声知覚問題に対する我々の世界的アプローチは、最適化問題の精神にある。
例えば、単語長がしきい値以下で、静的な遷移と同一視でき、そうでなければ難しい場合には、音声認識は容易であることを示す。
これを単語認識のダイナミクスに拡張し、個別、孤立した誤聴と連続した誤聴のクラスターの区別を強調する直感的なアプローチを提案する。
少なくともあるパラメータ範囲では、静的遷移に達する前に動的遷移が現れるが、これは複雑なシステムの他の多くの例と同様である。
関連論文リスト
- Speech perception: a model of word recognition [0.0]
本稿では,音の相関効果を考慮した音声認識モデルを提案する。
このモデルの単語は、好適に選択された降下ダイナミクスの引力に対応する。
誤聴の有無で短い単語と長い単語を復号する方法について検討する。
論文 参考訳(メタデータ) (2024-10-24T09:41:47Z) - Identifying and interpreting non-aligned human conceptual
representations using language modeling [0.0]
先天性失明は,a-モダル語と知覚関連言語ドメインの両方において概念的再編成を引き起こすことを示す。
視覚障害者は、より強く社会的・認知的な意味と、行動に関連する動詞を関連づける。
一部の動詞では、盲目と盲目の表現は非常に似ている。
論文 参考訳(メタデータ) (2024-03-10T13:02:27Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - The neural dynamics of auditory word recognition and integration [21.582292050622456]
本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。
我々は,このモデルを用いて,架空の物語を受動的に聴いた被験者が記録した頭皮脳波信号を説明する。
このモデルは、単語が素早く認識できるかどうかに応じて、単語の異なるニューラル処理を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T18:06:32Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings [11.475144702935568]
各単語感覚の文脈的埋め込みが、典型的な事前学習モデルにおける文脈によってどの程度異なるかを定量化する。
単語表現は位置バイアスを受けており、異なる文脈における最初の単語はより類似する傾向にある。
論文 参考訳(メタデータ) (2022-08-20T12:27:25Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Modelling word learning and recognition using visually grounded speech [18.136170489933082]
音声認識の計算モデルは、しばしば対象の単語の集合が既に与えられていると仮定する。
これは、これらのモデルが、事前の知識と明示的な監督なしに、スクラッチから音声を認識することを学ばないことを意味する。
視覚接地音声モデルは、音声入力と視覚入力の統計的依存関係を利用して、事前知識のない音声認識を学習する。
論文 参考訳(メタデータ) (2022-03-14T08:59:37Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。