論文の概要: I see what you hear: a vision-inspired method to localize words
- arxiv url: http://arxiv.org/abs/2210.13567v1
- Date: Mon, 24 Oct 2022 19:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:24:04.714647
- Title: I see what you hear: a vision-inspired method to localize words
- Title(参考訳): 単語をローカライズする視覚にインスパイアされた手法
- Authors: Mohammad Samragh, Arnav Kundu, Ting-Yao Hu, Minsik Cho, Aman Chadha,
Ashish Shrivastava, Oncel Tuzel, Devang Naik
- Abstract要約: 単語の検出と局所化のための軽量なソリューションを提案する。
単語ローカライゼーションにはバウンディングボックスレグレッションを使用し、与えられた音声ストリームにおけるキーワードの発生、オフセット、持続時間を検出することができる。
既存の作業と比較して,モデルサイズを94%削減し,F1スコアを6.5%改善する。
- 参考スコア(独自算出の注目度): 24.663254104804324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the possibility of using visual object detection
techniques for word localization in speech data. Object detection has been
thoroughly studied in the contemporary literature for visual data. Noting that
an audio can be interpreted as a 1-dimensional image, object localization
techniques can be fundamentally useful for word localization. Building upon
this idea, we propose a lightweight solution for word detection and
localization. We use bounding box regression for word localization, which
enables our model to detect the occurrence, offset, and duration of keywords in
a given audio stream. We experiment with LibriSpeech and train a model to
localize 1000 words. Compared to existing work, our method reduces model size
by 94%, and improves the F1 score by 6.5\%.
- Abstract(参考訳): 本稿では,視覚物体検出手法を音声データの単語定位に応用する可能性について検討する。
オブジェクト検出は、ビジュアルデータのための現代文献で徹底的に研究されている。
音声を1次元画像として解釈することは可能であり、オブジェクトのローカライゼーション技術は単語のローカライゼーションに根本的に有用である。
この考え方に基づいて,単語検出とローカライゼーションのための軽量なソリューションを提案する。
単語のローカライゼーションにはバウンディングボックス回帰(bounding box regression)を用い,与えられた音声ストリームにおけるキーワードの発生,オフセット,持続時間を検出する。
我々は、librispeechを用いて実験を行い、1000語をローカライズするモデルを訓練する。
既存の作業と比較して,モデルサイズを94%削減し,F1スコアを6.5\%改善する。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Towards visually prompted keyword localisation for zero-resource spoken
languages [27.696096343873215]
視覚的に誘導されるキーワードローカライゼーション(VPKL)のタスクを定式化する。
VPKLにはキーワードの画像が与えられ、そのキーワードの発声箇所を検出して予測する。
これらの革新は,既存の音声ビジョンモデルよりもVPKLの改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-12T14:17:34Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - Keyword localisation in untranscribed speech using visually grounded
speech models [21.51901080054713]
キーワードのローカライゼーション(英: Keywords Localization)とは、ある音声の発話において、所定のクエリキーワードが発生する場所を見つけるタスクである。
VGSモデルは、音声キャプションと組み合わせたラベルのない画像に基づいて訓練される。
マスケベースのローカライゼーションは、VGSモデルから最も報告されたローカライゼーションスコアのいくつかを与える。
論文 参考訳(メタデータ) (2022-02-02T16:14:29Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - Fine-Grained Grounding for Multimodal Speech Recognition [49.01826387664443]
本稿では,画像の各部分からよりきめ細かい視覚情報を利用するモデルを提案する。
Flickr8K Audio Captions Corpusの実験では、私たちのモデルはグローバルな視覚的特徴を使用するアプローチよりも改善されていることがわかった。
論文 参考訳(メタデータ) (2020-10-05T23:06:24Z) - Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。
本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-02T17:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。