論文の概要: Towards visually prompted keyword localisation for zero-resource spoken
languages
- arxiv url: http://arxiv.org/abs/2210.06229v1
- Date: Wed, 12 Oct 2022 14:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-13 15:42:00.833893
- Title: Towards visually prompted keyword localisation for zero-resource spoken
languages
- Title(参考訳): ゼロリソース音声言語のためのキーワードローカライズ
- Authors: Leanne Nortje and Herman Kamper
- Abstract要約: 視覚的に誘導されるキーワードローカライゼーション(VPKL)のタスクを定式化する。
VPKLにはキーワードの画像が与えられ、そのキーワードの発声箇所を検出して予測する。
これらの革新は,既存の音声ビジョンモデルよりもVPKLの改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 27.696096343873215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imagine being able to show a system a visual depiction of a keyword and
finding spoken utterances that contain this keyword from a zero-resource speech
corpus. We formalise this task and call it visually prompted keyword
localisation (VPKL): given an image of a keyword, detect and predict where in
an utterance the keyword occurs. To do VPKL, we propose a speech-vision model
with a novel localising attention mechanism which we train with a new keyword
sampling scheme. We show that these innovations give improvements in VPKL over
an existing speech-vision model. We also compare to a visual bag-of-words (BoW)
model where images are automatically tagged with visual labels and paired with
unlabelled speech. Although this visual BoW can be queried directly with a
written keyword (while our's takes image queries), our new model still
outperforms the visual BoW in both detection and localisation, giving a 16%
relative improvement in localisation F1.
- Abstract(参考訳): システムにキーワードの視覚的描写を示し、このキーワードを含む音声発話をゼロソース音声コーパスから見つけることを想像してみよう。
このタスクを形式化し、視覚刺激キーワードローカライズ(vpkl)と呼ぶ。キーワードの画像が与えられたら、そのキーワードがどこで発生したかを検出し、予測する。
VPKLを実現するために,新しいキーワードサンプリング方式で学習する,新たなローカライズアテンション機構を備えた音声ビジョンモデルを提案する。
これらのイノベーションが既存の音声ビジョンモデルよりもvpklの改善をもたらすことを示す。
また、画像に視覚ラベルをタグ付けし、ラベルなしの音声とペア付けする視覚的バズ・オブ・ワード(BoW)モデルと比較した。
このビジュアルなBoWは、直接書かれたキーワードでクエリできるが(画像クエリは私たちのものだが)、新しいモデルは、検出とローカライゼーションの両方で視覚的なBoWよりも優れており、ローカライゼーションF1は16%改善されている。
関連論文リスト
- Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Natural Scene Image Annotation Using Local Semantic Concepts and Spatial
Bag of Visual Words [0.0]
本稿では,事前に定義された語彙から局所的な意味ラベルを付加した自然なシーン画像の自動アノテーションフレームワークを提案する。
このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと相関していると仮定する仮説に基づいている。
この仮説に基づいて、画像領域をBOWモデルで効率よく表現し、SVMのような機械学習アプローチを使用して、セマンティックアノテーションで画像領域をラベル付けすることができる。
論文 参考訳(メタデータ) (2022-10-17T12:57:51Z) - Keyword localisation in untranscribed speech using visually grounded
speech models [21.51901080054713]
キーワードのローカライゼーション(英: Keywords Localization)とは、ある音声の発話において、所定のクエリキーワードが発生する場所を見つけるタスクである。
VGSモデルは、音声キャプションと組み合わせたラベルのない画像に基づいて訓練される。
マスケベースのローカライゼーションは、VGSモデルから最も報告されたローカライゼーションスコアのいくつかを与える。
論文 参考訳(メタデータ) (2022-02-02T16:14:29Z) - Visual Information Guided Zero-Shot Paraphrase Generation [71.33405403748237]
ペア画像キャプチャデータのみに基づく視覚情報誘導ゼロショットパラフレーズ生成(ViPG)を提案する。
画像キャプションモデルとパラフレーズモデルとを共同で訓練し、画像キャプションモデルを活用してパラフレーズモデルのトレーニングを指導する。
自動評価と人的評価の両方は、我々のモデルが関係性、流布度、多様性に優れたパラフレーズを生成できることを示している。
論文 参考訳(メタデータ) (2022-01-22T18:10:39Z) - Visual Keyword Spotting with Attention [82.79015266453533]
本稿では,2つのストリームを取り込み,ビデオの視覚的エンコーディング,キーワードの音声的エンコーディングを行うトランスフォーマーモデルについて検討する。
本研究では,従来の視覚的キーワードスポッティングや唇読解法よりも優れていることを示す。
我々は,手話ビデオにおいて,孤立した口づけの極端な条件下での単語の発見能力を示す。
論文 参考訳(メタデータ) (2021-10-29T17:59:04Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - Towards localisation of keywords in speech using weak supervision [30.67230721247154]
弱監督モデルおよび自己監督モデルの開発は、完全な転写が利用できない低リソース環境での音声技術を可能にする可能性がある。
位置情報が明示的に提供されない2つの弱い監督形態を用いてキーワードのローカライズが可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-12-14T10:30:51Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。