論文の概要: Keyword localisation in untranscribed speech using visually grounded
speech models
- arxiv url: http://arxiv.org/abs/2202.01107v1
- Date: Wed, 2 Feb 2022 16:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 14:53:37.801054
- Title: Keyword localisation in untranscribed speech using visually grounded
speech models
- Title(参考訳): 音声モデルを用いた非転写音声におけるキーワードの局所化
- Authors: Kayode Olaleye, Dan Oneata and Herman Kamper
- Abstract要約: キーワードのローカライゼーション(英: Keywords Localization)とは、ある音声の発話において、所定のクエリキーワードが発生する場所を見つけるタスクである。
VGSモデルは、音声キャプションと組み合わせたラベルのない画像に基づいて訓練される。
マスケベースのローカライゼーションは、VGSモデルから最も報告されたローカライゼーションスコアのいくつかを与える。
- 参考スコア(独自算出の注目度): 21.51901080054713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword localisation is the task of finding where in a speech utterance a
given query keyword occurs. We investigate to what extent keyword localisation
is possible using a visually grounded speech (VGS) model. VGS models are
trained on unlabelled images paired with spoken captions. These models are
therefore self-supervised -- trained without any explicit textual label or
location information. To obtain training targets, we first tag training images
with soft text labels using a pretrained visual classifier with a fixed
vocabulary. This enables a VGS model to predict the presence of a written
keyword in an utterance, but not its location. We consider four ways to equip
VGS models with localisations capabilities. Two of these -- a saliency approach
and input masking -- can be applied to an arbitrary prediction model after
training, while the other two -- attention and a score aggregation approach --
are incorporated directly into the structure of the model. Masked-based
localisation gives some of the best reported localisation scores from a VGS
model, with an accuracy of 57% when the system knows that a keyword occurs in
an utterance and need to predict its location. In a setting where localisation
is performed after detection, an $F_1$ of 25% is achieved, and in a setting
where a keyword spotting ranking pass is first performed, we get a localisation
P@10 of 32%. While these scores are modest compared to the idealised setting
with unordered bag-of-word-supervision (from transcriptions), these models do
not receive any textual or location supervision. Further analyses show that
these models are limited by the first detection or ranking pass. Moreover,
individual keyword localisation performance is correlated with the tagging
performance from the visual classifier. We also show qualitatively how and
where semantic mistakes occur, e.g. that the model locates surfer when queried
with ocean.
- Abstract(参考訳): キーワードローカライズ(英: keyword localization)とは、与えられたクエリーキーワードがどこで発声されるかを見つけるタスクである。
本研究では,vgs(visual grounded speech)モデルを用いて,キーワードのローカライズがどの程度可能かを検討する。
VGSモデルは、音声キャプションと組み合わせたラベルのない画像に基づいて訓練される。
These models are therefore self-supervised -- trained without any explicit textual label or location information. To obtain training targets, we first tag training images with soft text labels using a pretrained visual classifier with a fixed vocabulary. This enables a VGS model to predict the presence of a written keyword in an utterance, but not its location. We consider four ways to equip VGS models with localisations capabilities. Two of these -- a saliency approach and input masking -- can be applied to an arbitrary prediction model after training, while the other two -- attention and a score aggregation approach -are incorporated directly into the structure of the model.
マスケベースのローカライゼーションは、VGSモデルから報告された最も優れたローカライゼーションスコアのいくつかを、あるキーワードが発話中に発生し、その位置を予測する必要があることをシステムが知っている場合、精度は57%である。
検出後にローカライズを行う設定では、25%の$f_1$が達成され、キーワードスポッティングランキングパスが最初に実行される設定では、ローカライズp@10が32%となる。
これらのスコアは(書き起こしから)未注文の単語のスーパービジョンの理想的な設定と比較すると控えめだが、これらのモデルはテキストや位置の監督を受けていない。
さらなる分析により、これらのモデルは最初の検出またはランキングパスによって制限されることが示された。
さらに、個々のキーワードのローカライゼーション性能は、視覚分類器からのタグ付け性能と相関する。
また,海面に照会すると,モデルがサーファーの位置を判断するなど,意味的ミスの発生方法や場所を定性的に示す。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Visually Grounded Keyword Detection and Localisation for Low-Resource
Languages [0.0]
本研究では,音声におけるキーワードの局所化に視覚的グラウンドド音声(VGS)モデルを用いることを検討した。
イングランドのデータセットを用いて, 4つのローカライゼーション手法を提案し, 評価を行った。
ヨルバ語で話されるキャプションを含む新しいデータセットも収集され、言語間キーワードのローカライゼーションのためにリリースされた。
論文 参考訳(メタデータ) (2023-02-01T21:32:15Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Towards visually prompted keyword localisation for zero-resource spoken
languages [27.696096343873215]
視覚的に誘導されるキーワードローカライゼーション(VPKL)のタスクを定式化する。
VPKLにはキーワードの画像が与えられ、そのキーワードの発声箇所を検出して予測する。
これらの革新は,既存の音声ビジョンモデルよりもVPKLの改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-12T14:17:34Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Towards localisation of keywords in speech using weak supervision [30.67230721247154]
弱監督モデルおよび自己監督モデルの開発は、完全な転写が利用できない低リソース環境での音声技術を可能にする可能性がある。
位置情報が明示的に提供されない2つの弱い監督形態を用いてキーワードのローカライズが可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-12-14T10:30:51Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。