論文の概要: Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2104.01894v1
- Date: Mon, 5 Apr 2021 13:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:55:41.107264
- Title: Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval
- Title(参考訳): talk, don't write: direct speech-based image retrieval の検討
- Authors: Ramon Sanabria, Austin Waters, Jason Baldridge
- Abstract要約: 共同表現学習のプロキシとして,音声に基づく画像検索が研究されている。
音声に基づく検索が実際にどれだけうまく機能するかは不明だ。
音声の自発的,アクセント的,あるいは自動書き起こしが難しい場合には,asr-to-textエンコーディングのカスケードを克服できる。
- 参考スコア(独自算出の注目度): 13.40010612226968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based image retrieval has been studied as a proxy for joint
representation learning, usually without emphasis on retrieval itself. As such,
it is unclear how well speech-based retrieval can work in practice -- both in
an absolute sense and versus alternative strategies that combine automatic
speech recognition (ASR) with strong text encoders. In this work, we
extensively study and expand choices of encoder architectures, training
methodology (including unimodal and multimodal pretraining), and other factors.
Our experiments cover different types of speech in three datasets: Flickr
Audio, Places Audio, and Localized Narratives. Our best model configuration
achieves large gains over state of the art, e.g., pushing recall-at-one from
21.8% to 33.2% for Flickr Audio and 27.6% to 53.4% for Places Audio. We also
show our best speech-based models can match or exceed cascaded ASR-to-text
encoding when speech is spontaneous, accented, or otherwise hard to
automatically transcribe.
- Abstract(参考訳): 音声に基づく画像検索は, 検索自体に重きを置くことなく, 共同表現学習の指標として研究されてきた。
そのため、絶対的な意味でも、自動音声認識(ASR)と強力なテキストエンコーダを組み合わせた代替戦略においても、音声ベースの検索が実際にどの程度うまく機能するかは不明だ。
本研究では,エンコーダアーキテクチャの選択,トレーニング方法論(非モーダルおよびマルチモーダル事前学習を含む),その他の要因を幅広く研究し,拡張する。
実験では、Flickr Audio、Places Audio、Localized Narrativesの3つのデータセットで、さまざまなタイプの音声をカバーしています。
私たちの最高のモデル構成は、例えば、Flickr Audioでは21.8%から33.2%、Places Audioでは27.6%から53.4%にリコール・アット・ワンをプッシュするなど、最先端技術よりも大幅に向上する。
また,音声の自発的,アクセント的,あるいは自動書き起こしが困難である場合,asr-to-textエンコーディングのカスケードを克服できる最善の音声モデルを示す。
関連論文リスト
- PALM: Few-Shot Prompt Learning for Audio Language Models [1.6177972328875514]
音声言語モデル(ALM)は近年,ゼロショット音声認識タスクにおいて顕著な成功を収めている。
本稿では,テキストエンコーダブランチの機能空間を最適化する新しい手法であるPrompt Learning in Audio Language Models (PALM)を提案する。
本研究では,11の音声認識データセットに対するアプローチの有効性を実証し,その結果と3つのベースラインを数ショットの学習設定で比較する。
論文 参考訳(メタデータ) (2024-09-29T22:06:07Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Understanding Shared Speech-Text Representations [34.45772613231558]
Mae-Stroは、エンドツーエンドモデルにテキストを組み込むことで、音声モデルを訓練するアプローチを開発した。
音声テキストアライメントのためのコーパス固有持続時間モデルが,共有音声テキスト表現を学習する上で最も重要な要素であることが判明した。
共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。
論文 参考訳(メタデータ) (2023-04-27T20:05:36Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。