論文の概要: Towards localisation of keywords in speech using weak supervision
- arxiv url: http://arxiv.org/abs/2012.07396v1
- Date: Mon, 14 Dec 2020 10:30:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:27:15.637246
- Title: Towards localisation of keywords in speech using weak supervision
- Title(参考訳): 弱監督型音声におけるキーワードの局所化に向けて
- Authors: Kayode Olaleye, Benjamin van Niekerk, Herman Kamper
- Abstract要約: 弱監督モデルおよび自己監督モデルの開発は、完全な転写が利用できない低リソース環境での音声技術を可能にする可能性がある。
位置情報が明示的に提供されない2つの弱い監督形態を用いてキーワードのローカライズが可能かどうかを検討する。
- 参考スコア(独自算出の注目度): 30.67230721247154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developments in weakly supervised and self-supervised models could enable
speech technology in low-resource settings where full transcriptions are not
available. We consider whether keyword localisation is possible using two forms
of weak supervision where location information is not provided explicitly. In
the first, only the presence or absence of a word is indicated, i.e. a
bag-of-words (BoW) labelling. In the second, visual context is provided in the
form of an image paired with an unlabelled utterance; a model then needs to be
trained in a self-supervised fashion using the paired data. For keyword
localisation, we adapt a saliency-based method typically used in the vision
domain. We compare this to an existing technique that performs localisation as
a part of the network architecture. While the saliency-based method is more
flexible (it can be applied without architectural restrictions), we identify a
critical limitation when using it for keyword localisation. Of the two forms of
supervision, the visually trained model performs worse than the BoW-trained
model. We show qualitatively that the visually trained model sometimes locate
semantically related words, but this is not consistent. While our results show
that there is some signal allowing for localisation, it also calls for other
localisation methods better matched to these forms of weak supervision.
- Abstract(参考訳): 弱教師付きおよび自己教師型モデルの開発は、完全な転写ができない低リソース環境での音声技術を可能にする。
位置情報が明示的に提供されない2つの弱い監督形態を用いてキーワードのローカライズが可能かどうかを検討する。
第一に、単語の存在または欠落だけが示される。
単語のバッグ (BoW) ラベル。
第2に、視覚的なコンテキストは、ラベルのない発話とペアリングされた画像形式で提供され、ペア化されたデータを使用して、モデルが自己教師ありの方法で訓練される必要がある。
キーワードのローカライズには,視覚領域で一般的に使用されるサリエンシーに基づく手法を適用する。
ネットワークアーキテクチャの一部としてローカライズを行う既存の手法と比較する。
応答性に基づく手法はより柔軟であるが(アーキテクチャ上の制約なしに適用できる)、キーワードのローカライズに使用する場合の限界を特定する。
2種類の監視方法のうち、視覚的に訓練されたモデルは、BoW訓練されたモデルよりも性能が劣る。
視覚的に訓練されたモデルが意味論的に関連のある単語を見つけることは定性的に示されるが、一貫性はない。
以上の結果から,局所化を許容する信号はいくつか存在するが,他の局所化手法はこれらの弱い監督形態に合致する可能性が示唆された。
関連論文リスト
- CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - Towards visually prompted keyword localisation for zero-resource spoken
languages [27.696096343873215]
視覚的に誘導されるキーワードローカライゼーション(VPKL)のタスクを定式化する。
VPKLにはキーワードの画像が与えられ、そのキーワードの発声箇所を検出して予測する。
これらの革新は,既存の音声ビジョンモデルよりもVPKLの改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-12T14:17:34Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Adapting CLIP For Phrase Localization Without Further Training [30.467802103692378]
画像とキャプションのペアで事前学習したコントラスト言語ビジョンモデルであるCLIPを活用することを提案する。
我々は高分解能空間特徴写像を生成するためにCLIPを適用した。
フレーズローカライズのための手法は、人間のアノテーションや追加の訓練を必要としない。
論文 参考訳(メタデータ) (2022-04-07T17:59:38Z) - Keyword localisation in untranscribed speech using visually grounded
speech models [21.51901080054713]
キーワードのローカライゼーション(英: Keywords Localization)とは、ある音声の発話において、所定のクエリキーワードが発生する場所を見つけるタスクである。
VGSモデルは、音声キャプションと組み合わせたラベルのない画像に基づいて訓練される。
マスケベースのローカライゼーションは、VGSモデルから最も報告されたローカライゼーションスコアのいくつかを与える。
論文 参考訳(メタデータ) (2022-02-02T16:14:29Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Distant Supervision and Noisy Label Learning for Low Resource Named
Entity Recognition: A Study on Hausa and Yor\`ub\'a [23.68953940000046]
遠隔監視や弱い監視といった技術は、ラベル付きデータを(セミ)自動で作成するために使用することができる。
我々は,異なる埋め込み手法を評価し,現実的な低リソースシナリオにおいて遠隔監視をうまく活用できることを示す。
論文 参考訳(メタデータ) (2020-03-18T17:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。