論文の概要: Learning to Recognise Words using Visually Grounded Speech
- arxiv url: http://arxiv.org/abs/2006.00512v1
- Date: Sun, 31 May 2020 12:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:51:21.435752
- Title: Learning to Recognise Words using Visually Grounded Speech
- Title(参考訳): 視覚的接地音声を用いた単語認識学習
- Authors: Sebastiaan Scholten, Danny Merkx, Odette Scharenborg
- Abstract要約: このモデルは、視覚的に接地された埋め込みを作成するために、画像と音声キャプションのペアで訓練されている。
本研究では,そのようなモデルを用いて,単語を埋め込み,それらを用いて視覚的参照者の画像を取得することによって,単語の認識が可能かどうかを検討する。
- 参考スコア(独自算出の注目度): 15.972015648122914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigated word recognition in a Visually Grounded Speech model. The
model has been trained on pairs of images and spoken captions to create
visually grounded embeddings which can be used for speech to image retrieval
and vice versa. We investigate whether such a model can be used to recognise
words by embedding isolated words and using them to retrieve images of their
visual referents. We investigate the time-course of word recognition using a
gating paradigm and perform a statistical analysis to see whether well known
word competition effects in human speech processing influence word recognition.
Our experiments show that the model is able to recognise words, and the gating
paradigm reveals that words can be recognised from partial input as well and
that recognition is negatively influenced by word competition from the word
initial cohort.
- Abstract(参考訳): 視覚下地音声モデルによる単語認識について検討した。
このモデルは、画像と音声キャプションのペアで訓練され、視覚的に接地した埋め込みを作成し、音声から画像検索に利用し、その逆もできる。
そこで本研究では, 孤立した単語を埋め込み, 画像検索に使用することにより, 単語を認識できるかどうかを検討する。
ゲーティングパラダイムを用いて単語認識の時間軸を調査し,人間の音声処理における単語競合効果が単語認識に影響を及ぼすかどうかを統計的に分析する。
実験の結果,このモデルでは単語を認識でき,またゲーティングパラダイムでは,単語を部分的な入力から認識することもでき,単語の初期コホートからの単語競合に負の影響を受けやすいことがわかった。
関連論文リスト
- A model of early word acquisition based on realistic-scale audiovisual naming events [10.047470656294333]
音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。
生音声の統計的規則性や画素レベルの視覚入力から学習するモデルを用いて,12ヵ月までの幼児の語学学習を現実的な環境でシミュレーションした。
以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2024-06-07T21:05:59Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Modelling word learning and recognition using visually grounded speech [18.136170489933082]
音声認識の計算モデルは、しばしば対象の単語の集合が既に与えられていると仮定する。
これは、これらのモデルが、事前の知識と明示的な監督なしに、スクラッチから音声を認識することを学ばないことを意味する。
視覚接地音声モデルは、音声入力と視覚入力の統計的依存関係を利用して、事前知識のない音声認識を学習する。
論文 参考訳(メタデータ) (2022-03-14T08:59:37Z) - Evaluating language-biased image classification based on semantic
representations [13.508894957080777]
人間は、画像-ワード干渉として知られる単語埋め込み画像に対して、言語バイアスの画像認識を示す。
人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。
論文 参考訳(メタデータ) (2022-01-26T15:46:36Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - Pho(SC)Net: An Approach Towards Zero-shot Word Image Recognition in
Historical Documents [2.502407331311937]
ゼロショット学習法は、歴史的文書画像において、目に見えない/見えない単語を認識するのに適当に使用できる。
本稿では,2つの異なる単語を区別するために,キャラクタの形状の外観を考慮したハイブリッド表現を提案する。
PHOSとPHOCの両方の特性を有する埋め込みの有効性について実験を行った。
論文 参考訳(メタデータ) (2021-05-31T16:22:33Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。