論文の概要: YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword
localisation through visual grounding
- arxiv url: http://arxiv.org/abs/2210.04600v2
- Date: Wed, 12 Oct 2022 07:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 11:57:58.297072
- Title: YFACC: A Yor\`ub\'a speech-image dataset for cross-lingual keyword
localisation through visual grounding
- Title(参考訳): YFACC:視覚的接地による言語間キーワードローカライゼーションのためのYor\`ub\'a音声画像データセット
- Authors: Kayode Olaleye, Dan Oneata, Herman Kamper
- Abstract要約: ナイジェリアで話されている真の低リソース言語であるYorub'aで、6kのFlickr画像のオーディオキャプションのデータセットを新たにリリースしました。
我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yorub'a 音声とペア付けする。
これにより、言語間のキーワードのローカライゼーションが可能となり、Yorub'a言語で書かれた英語クエリが検出され、位置される。
- 参考スコア(独自算出の注目度): 21.51901080054713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually grounded speech (VGS) models are trained on images paired with
unlabelled spoken captions. Such models could be used to build speech systems
in settings where it is impossible to get labelled data, e.g. for documenting
unwritten languages. However, most VGS studies are in English or other
high-resource languages. This paper attempts to address this shortcoming. We
collect and release a new single-speaker dataset of audio captions for 6k
Flickr images in Yor\`ub\'a -- a real low-resource language spoken in Nigeria.
We train an attention-based VGS model where images are automatically tagged
with English visual labels and paired with Yor\`ub\'a utterances. This enables
cross-lingual keyword localisation: a written English query is detected and
located in Yor\`ub\'a speech. To quantify the effect of the smaller dataset, we
compare to English systems trained on similar and more data. We hope that this
new dataset will stimulate research in the use of VGS models for real
low-resource languages.
- Abstract(参考訳): ヴィジュアル・グラウンドド・スピーチ(vgs)モデルは、ラベルなしの音声キャプションと組み合わせた画像で訓練される。
このようなモデルは、ラベル付きデータの取得が不可能な設定で音声システムを構築するために用いられる。
しかしながら、ほとんどのVGS研究は英語や他の高リソース言語で行われている。
本稿ではこの欠点に対処しようと試みる。
我々は、ナイジェリアで話されている真のローソース言語yor\``ub\'aで、6k flickr画像のための音声キャプションの、新しい単一話者データセットを収集してリリースします。
我々は、注目に基づくVGSモデルをトレーニングし、画像に英語のビジュアルラベルをタグ付けし、Yor\`ub\'a 発話と組み合わせる。
これにより、言語間のキーワードのローカライゼーションが可能になり、Yor\`ub\'a 音声で書かれた英語クエリが検出され、位置される。
より小さなデータセットの効果を定量化するために、類似データに基づいて訓練された英語システムと比較する。
この新しいデータセットは、実際の低リソース言語にvgsモデルを使用する研究を促進することを期待している。
関連論文リスト
- Visually Grounded Speech Models for Low-resource Languages and Cognitive Modelling [4.340338299803563]
画像を用いた音声中のキーワードの検出とローカライズを行うために,視覚的に誘導されるキーワードローカライゼーションというタスクを導入する。
本稿では,Yorubaのような低リソース言語に対する数ショット学習シナリオにおいて,VGSモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-09-03T17:59:50Z) - Translating speech with just images [23.104041372055466]
既存の画像キャプションシステムを介して、画像とテキストをリンクすることで、この接続を拡張します。
このアプローチは、生成されたキャプションと異なる言語で音声を付加することにより、画像のみを用いた音声翻訳に使用できる。
実際の低リソース言語であるYorub'aについて検討し、Yorub'a-to- English 音声翻訳モデルを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:29:24Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage [23.71195344840051]
画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T06:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。