論文の概要: Word Discovery in Visually Grounded, Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2203.15081v5
- Date: Tue, 20 Jun 2023 01:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 06:27:45.541097
- Title: Word Discovery in Visually Grounded, Self-Supervised Speech Models
- Title(参考訳): 視覚・自己教師あり音声モデルにおける単語発見
- Authors: Puyuan Peng and David Harwath
- Abstract要約: モデルの自己アテンションヘッド内に強力な単語セグメンテーションとクラスタリング能力が出現することを示す。
実験の結果,HuBERTモデルとwav2vec2.0モデルでは,ほぼ同程度にこの能力は存在しないことがわかった。
- 参考スコア(独自算出の注目度): 13.956691231452336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for visually-grounded spoken term discovery. After
training either a HuBERT or wav2vec2.0 model to associate spoken captions with
natural images, we show that powerful word segmentation and clustering
capability emerges within the model's self-attention heads. Our experiments
reveal that this ability is not present to nearly the same extent in the base
HuBERT and wav2vec2.0 models, suggesting that the visual grounding task is a
crucial component of the word discovery capability we observe. We also evaluate
our method on the Buckeye word segmentation and ZeroSpeech spoken term
discovery tasks, where we perform on par with or better than currently
published methods on several metrics. Code and model weights are available at
https://github.com/jasonppy/word-discovery.
- Abstract(参考訳): 本稿では,視覚的単語探索手法を提案する。
HuBERT または wav2vec2.0 モデルを用いて、音声キャプションを自然な画像に関連づける訓練を行った結果、強力な単語セグメンテーションとクラスタリング能力がモデルの自己注意ヘッド内に出現することを示した。
私たちの実験では、この能力はhubertとwav2vec2.0のモデルではほとんど同じ程度には存在せず、視覚的な接地作業が私たちが観察する単語発見能力の重要な構成要素であることを示唆している。
また,いくつかの指標において,現在公開している手法と同等かそれ以上かそれ以上か,あるいはそれ以上に実行する場合,buckeyeワードセグメンテーションとzerospeech音声単語発見タスクの手法を評価した。
コードとモデルの重み付けはhttps://github.com/jasonppy/word-discoveryで利用可能である。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - World-to-Words: Grounded Open Vocabulary Acquisition through Fast
Mapping in Vision-Language Models [6.47452771256903]
我々は,オープンワールド言語学習における接地とブートストラップを検討するために,GOVA(Grounded Open Vocabulary Acquisition)を導入した。
目的としてグラウンドを強調表示する画像テキストペアを事前学習することで、新しい視覚的グラウンド言語モデルであるオブジェクト指向BERT(OctoBERT)を提案する。
我々は,OctoBERTがよりコヒーレントで高速な接地単語学習者であり,事前学習中に得られた接地能力が,未知語をより迅速かつ堅牢に学習する上で有効であることを実証した。
論文 参考訳(メタデータ) (2023-06-14T18:10:05Z) - Syllable Discovery and Cross-Lingual Generalization in a Visually
Grounded, Self-Supervised Speech Model [21.286529902957724]
自己教師型音声モデルの学習において, 音節単位を捉えた表現が出現することを示す。
我々のモデルは、訓練された言語(英語)上で、最先端のシラバス的セグメンテーション法よりも優れているだけでなく、ゼロショット方式でエストニア語に一般化していることを示す。
論文 参考訳(メタデータ) (2023-05-19T05:19:04Z) - Towards visually prompted keyword localisation for zero-resource spoken
languages [27.696096343873215]
視覚的に誘導されるキーワードローカライゼーション(VPKL)のタスクを定式化する。
VPKLにはキーワードの画像が与えられ、そのキーワードの発声箇所を検出して予測する。
これらの革新は,既存の音声ビジョンモデルよりもVPKLの改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-12T14:17:34Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Visual Keyword Spotting with Attention [82.79015266453533]
本稿では,2つのストリームを取り込み,ビデオの視覚的エンコーディング,キーワードの音声的エンコーディングを行うトランスフォーマーモデルについて検討する。
本研究では,従来の視覚的キーワードスポッティングや唇読解法よりも優れていることを示す。
我々は,手話ビデオにおいて,孤立した口づけの極端な条件下での単語の発見能力を示す。
論文 参考訳(メタデータ) (2021-10-29T17:59:04Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - Neural Twins Talk [0.0]
本稿では,最新の画像キャプションモデルよりも優れた新しいツインカスケードアテンションモデルを提案する。
視覚的接頭辞は、入力画像内の特定の領域に接頭した文中の単語の存在を保証する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
論文 参考訳(メタデータ) (2020-09-26T06:58:58Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。