論文の概要: Modelling word learning and recognition using visually grounded speech
- arxiv url: http://arxiv.org/abs/2203.06937v1
- Date: Mon, 14 Mar 2022 08:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:47:30.359958
- Title: Modelling word learning and recognition using visually grounded speech
- Title(参考訳): 視覚接地音声を用いた単語学習と認識のモデル化
- Authors: Danny Merkx, Sebastiaan Scholten, Stefan L. Frank, Mirjam Ernestus and
Odette Scharenborg
- Abstract要約: 音声認識の計算モデルは、しばしば対象の単語の集合が既に与えられていると仮定する。
これは、これらのモデルが、事前の知識と明示的な監督なしに、スクラッチから音声を認識することを学ばないことを意味する。
視覚接地音声モデルは、音声入力と視覚入力の統計的依存関係を利用して、事前知識のない音声認識を学習する。
- 参考スコア(独自算出の注目度): 18.136170489933082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Computational models of speech recognition often assume that the
set of target words is already given. This implies that these models do not
learn to recognise speech from scratch without prior knowledge and explicit
supervision. Visually grounded speech models learn to recognise speech without
prior knowledge by exploiting statistical dependencies between spoken and
visual input. While it has previously been shown that visually grounded speech
models learn to recognise the presence of words in the input, we explicitly
investigate such a model as a model of human speech recognition.
Methods: We investigate the time-course of word recognition as simulated by
the model using a gating paradigm to test whether its recognition is affected
by well-known word-competition effects in human speech processing. We
furthermore investigate whether vector quantisation, a technique for discrete
representation learning, aids the model in the discovery and recognition of
words.
Results/Conclusion: Our experiments show that the model is able to recognise
nouns in isolation and even learns to properly differentiate between plural and
singular nouns. We also find that recognition is influenced by word competition
from the word-initial cohort and neighbourhood density, mirroring word
competition effects in human speech comprehension. Lastly, we find no evidence
that vector quantisation is helpful in discovering and recognising words. Our
gating experiments even show that the vector quantised model requires more of
the input sequence for correct recognition.
- Abstract(参考訳): 背景: 音声認識の計算モデルは、しばしば対象単語の集合が既に与えられていると仮定する。
これは、これらのモデルが、事前の知識と明示的な監督なしに、スクラッチから音声を認識することを学ばないことを意味する。
音声認識モデルは、音声入力と視覚入力の統計的依存関係を利用して、事前知識のない音声認識を学ぶ。
従来,視覚的に接頭した音声モデルでは,入力中の単語の存在を認識できることが示されてきたが,人間の音声認識モデルとしてのそのようなモデルを明示的に検討した。
方法: ゲーティングパラダイムを用いて, モデルによりシミュレーションされた単語認識の時間経過を調査し, その認識が人間の音声処理におけるよく知られた単語競合の影響を検証した。
さらに,離散表現学習の手法であるベクトル量子化が,単語の発見と認識のモデルを支援するかどうかについても検討する。
結果と結論: 実験の結果, モデルは単独で名詞を認識でき, 複数名詞と特異名詞を適切に区別できることがわかった。
また,音声認識は,人間の発話理解における単語競合効果を反映した,単語初期コホートと近隣密度との単語競合の影響がみられた。
最後に,ベクトル量子化が単語の発見と認識に役立つ証拠は見つからない。
我々のゲーティング実験は、ベクトル量子化モデルが正しい認識のためにより多くの入力シーケンスを必要とすることを示している。
関連論文リスト
- Visually Grounded Speech Models have a Mutual Exclusivity Bias [20.495178526318185]
子どもが新しい単語を学ぶ際には、相互排他性(ME)バイアスのような制約を用いる。
このバイアスは計算学的に研究されてきたが、個々の単語表現を入力として使用するモデルでのみ研究されている。
自然画像と連続音声から学習する視覚的接地音声モデルの文脈におけるMEバイアスについて検討する。
論文 参考訳(メタデータ) (2024-03-20T18:49:59Z) - Identifying and interpreting non-aligned human conceptual
representations using language modeling [0.0]
先天性失明は,a-モダル語と知覚関連言語ドメインの両方において概念的再編成を引き起こすことを示す。
視覚障害者は、より強く社会的・認知的な意味と、行動に関連する動詞を関連づける。
一部の動詞では、盲目と盲目の表現は非常に似ている。
論文 参考訳(メタデータ) (2024-03-10T13:02:27Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - The neural dynamics of auditory word recognition and integration [21.582292050622456]
本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。
我々は,このモデルを用いて,架空の物語を受動的に聴いた被験者が記録した頭皮脳波信号を説明する。
このモデルは、単語が素早く認識できるかどうかに応じて、単語の異なるニューラル処理を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T18:06:32Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Hearings and mishearings: decrypting the spoken word [0.0]
本研究では,誤聴の有無を考慮した個々の単語の音声知覚モデルを提案する。
例えば、単語長がしきい値以下である場合には、音声知覚が容易であることを示し、静的な遷移で識別する。
我々はこれを単語認識の力学に拡張し、個別の孤立した誤聴と連続した誤聴のクラスタの区別を強調する直感的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-01T13:58:51Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - Learning to Recognise Words using Visually Grounded Speech [15.972015648122914]
このモデルは、視覚的に接地された埋め込みを作成するために、画像と音声キャプションのペアで訓練されている。
本研究では,そのようなモデルを用いて,単語を埋め込み,それらを用いて視覚的参照者の画像を取得することによって,単語の認識が可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-31T12:48:37Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。