論文の概要: Visually Grounded Keyword Detection and Localisation for Low-Resource
Languages
- arxiv url: http://arxiv.org/abs/2302.00765v1
- Date: Wed, 1 Feb 2023 21:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 16:07:39.891012
- Title: Visually Grounded Keyword Detection and Localisation for Low-Resource
Languages
- Title(参考訳): 低リソース言語における視覚的単語検出と局所化
- Authors: Kayode Kolawole Olaleye
- Abstract要約: 本研究では,音声におけるキーワードの局所化に視覚的グラウンドド音声(VGS)モデルを用いることを検討した。
イングランドのデータセットを用いて, 4つのローカライゼーション手法を提案し, 評価を行った。
ヨルバ語で話されるキャプションを含む新しいデータセットも収集され、言語間キーワードのローカライゼーションのためにリリースされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the use of Visually Grounded Speech (VGS) models for
keyword localisation in speech. The study focusses on two main research
questions: (1) Is keyword localisation possible with VGS models and (2) Can
keyword localisation be done cross-lingually in a real low-resource setting?
Four methods for localisation are proposed and evaluated on an English dataset,
with the best-performing method achieving an accuracy of 57%. A new dataset
containing spoken captions in Yoruba language is also collected and released
for cross-lingual keyword localisation. The cross-lingual model obtains a
precision of 16% in actual keyword localisation and this performance can be
improved by initialising from a model pretrained on English data. The study
presents a detailed analysis of the model's success and failure modes and
highlights the challenges of using VGS models for keyword localisation in
low-resource settings.
- Abstract(参考訳): 本研究は,音声におけるキーワードの局所化における視覚下地音声(vgs)モデルの利用について検討する。
本研究は,(1)vgsモデルでキーワードのローカライズは可能か,(2)キーワードのローカライズを真の低リソース環境で言語横断的に行うことができるか,という2つの主な研究課題に焦点を当てている。
ローカライズのための4つの手法が提案され、イングランドのデータセット上で評価され、最も精度の高い方法は57%である。
ヨルバ語で話されるキャプションを含む新しいデータセットも収集され、言語間キーワードのローカライゼーションのためにリリースされた。
言語横断モデルは、実際のキーワードの局所化において16%の精度を得ることができ、この性能は、英語データに事前訓練されたモデルから初期化することで向上することができる。
本研究は,モデルの成功と失敗モードの詳細な分析を行い,低リソース環境でのキーワードローカライズにvgsモデルを使用することの課題を強調する。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Locale Encoding For Scalable Multilingual Keyword Spotting Models [8.385848547707953]
局所的特徴連結と特徴量線形変調を持つ2つの局所条件付き普遍モデルを提案する。
FiLMは、類似サイズの単言語KWSモデルと比較して、平均FRRby 61%(相対)で最高の性能を示した。
論文 参考訳(メタデータ) (2023-02-25T02:20:59Z) - Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better
Than Unsupervised? [8.594972401685649]
低リソース言語におけるゼロショット言語間キーワード抽出に事前学習した多言語言語モデルを用いることができるかを検討する。
この比較は、英語とロシア語の2つの高リソース言語と4つの低リソース言語をカバーする6つのニュース記事データセットで実施されている。
事前訓練されたモデルは、テストセットに現れない言語をカバーする多言語コーパスで微調整され、6つの言語すべてにおいて、一貫して教師なしモデルよりも優れています。
論文 参考訳(メタデータ) (2022-02-14T12:06:45Z) - Keyword localisation in untranscribed speech using visually grounded
speech models [21.51901080054713]
キーワードのローカライゼーション(英: Keywords Localization)とは、ある音声の発話において、所定のクエリキーワードが発生する場所を見つけるタスクである。
VGSモデルは、音声キャプションと組み合わせたラベルのない画像に基づいて訓練される。
マスケベースのローカライゼーションは、VGSモデルから最も報告されたローカライゼーションスコアのいくつかを与える。
論文 参考訳(メタデータ) (2022-02-02T16:14:29Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Learning to Learn Morphological Inflection for Resource-Poor Languages [105.11499402984482]
本稿では,メタラーニング問題として資源不足言語に対する形態的インフレクション(補題を表象形にマッピングする)の課題を提案する。
それぞれの言語を個別のタスクとして扱うことで、高速ソース言語からのデータを使ってモデルパラメータの集合を学習する。
3つのファミリーから29のターゲット言語を対象とする2つのモデルアーキテクチャの実験により、提案手法がすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-28T05:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。