論文の概要: Visually Grounded Speech Models for Low-resource Languages and Cognitive Modelling
- arxiv url: http://arxiv.org/abs/2409.02865v1
- Date: Tue, 3 Sep 2024 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 16:52:09.849273
- Title: Visually Grounded Speech Models for Low-resource Languages and Cognitive Modelling
- Title(参考訳): 低音源言語のための視覚的接地音声モデルと認知モデル
- Authors: Leanne Nortje,
- Abstract要約: 画像を用いた音声中のキーワードの検出とローカライズを行うために,視覚的に誘導されるキーワードローカライゼーションというタスクを導入する。
本稿では,Yorubaのような低リソース言語に対する数ショット学習シナリオにおいて,VGSモデルの有効性を示す。
- 参考スコア(独自算出の注目度): 4.340338299803563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This dissertation examines visually grounded speech (VGS) models that learn from unlabelled speech paired with images. It focuses on applications for low-resource languages and understanding human language acquisition. We introduce a task called visually prompted keyword localisation to detect and localise keywords in speech using images. We demonstrate the effectiveness of VGS models in few-shot learning scenarios for low-resource languages like Yoruba. Additionally, we examine the mutual exclusivity bias in VGS models. Our monolingual VGS model exhibits this bias, but we found that multilingualism does not affect the bias in this VGS model similarly to what is observed in children.
- Abstract(参考訳): この論文は、画像と組み合わせた未認識音声から学習する視覚的接地音声(VGS)モデルを調べる。
低リソース言語のためのアプリケーションと、人間の言語習得を理解することに焦点を当てている。
画像を用いた音声中のキーワードの検出とローカライズを行うために,視覚的に誘導されるキーワードローカライゼーションというタスクを導入する。
本稿では,Yorubaのような低リソース言語に対する数ショット学習シナリオにおいて,VGSモデルの有効性を示す。
さらに,VGSモデルの相互排他バイアスについて検討する。
我々の単言語VGSモデルは、このバイアスを呈するが、多言語主義は、このVGSモデルの偏見に、子供の観察と同じような影響を与えないことがわかった。
関連論文リスト
- Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Images in Language Space: Exploring the Suitability of Large Language
Models for Vision & Language Tasks [17.97052348690598]
大規模言語モデルは、ゼロショットまたは少数ショット学習パラダイムを使用して、様々な言語タスクで堅牢なパフォーマンスを示す。
入力としてイメージを付加的に処理できるマルチモーダルモデルは、言語のみのモデルでサイズと一般性に追いつかない。
異なる言語モデルを用いて言語モデルに視覚情報をアクセスできるようにする。
論文 参考訳(メタデータ) (2023-05-23T07:50:36Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword
localisation through visual grounding [21.51901080054713]
ナイジェリアで話されている真の低リソース言語であるYorub'aで、6kのFlickr画像のオーディオキャプションのデータセットを新たにリリースしました。
我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yorub'a 音声とペア付けする。
これにより、言語間のキーワードのローカライゼーションが可能となり、Yorub'a言語で書かれた英語クエリが検出され、位置される。
論文 参考訳(メタデータ) (2022-10-10T11:58:10Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。