論文の概要: Analysis of Joint Speech-Text Embeddings for Semantic Matching
- arxiv url: http://arxiv.org/abs/2204.01235v1
- Date: Mon, 4 Apr 2022 04:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:16:32.242435
- Title: Analysis of Joint Speech-Text Embeddings for Semantic Matching
- Title(参考訳): 意味マッチングのための統合音声テキスト埋め込みの解析
- Authors: Muhammad Huzaifah and Ivan Kukanov
- Abstract要約: ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
- 参考スコア(独自算出の注目度): 3.6423306784901235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Embeddings play an important role in many recent end-to-end solutions for
language processing problems involving more than one data modality. Although
there has been some effort to understand the properties of single-modality
embedding spaces, particularly that of text, their cross-modal counterparts are
less understood. In this work, we study a joint speech-text embedding space
trained for semantic matching by minimizing the distance between paired
utterance and transcription inputs. This was done through dual encoders in a
teacher-student model setup, with a pretrained language model acting as the
teacher and a transformer-based speech encoder as the student. We extend our
method to incorporate automatic speech recognition through both pretraining and
multitask scenarios and found that both approaches improve semantic matching.
Multiple techniques were utilized to analyze and evaluate cross-modal semantic
alignment of the embeddings: a quantitative retrieval accuracy metric,
zero-shot classification to investigate generalizability, and probing of the
encoders to observe the extent of knowledge transfer from one modality to
another.
- Abstract(参考訳): 複数のデータモダリティを含む言語処理問題に対する近年のエンドツーエンドソリューションにおいて、埋め込みは重要な役割を果たす。
単一モダリティ埋め込み空間、特にテキストの性質を理解する努力はあったが、それらの交叉モダリティ空間は理解されていない。
本研究では,ペア音声と書き起こし入力の距離を最小化し,意味マッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
これは教師-学生モデル構成のデュアルエンコーダで行われ、教師として事前訓練された言語モデルと、生徒としてトランスフォーマーベースの音声エンコーダによって行われた。
我々は,事前学習とマルチタスクの両方のシナリオを通じて自動音声認識を組み込む手法を拡張し,両者がセマンティックマッチングを改善することを発見した。
複数の手法を用いて埋め込みのクロスモーダルセマンティクスアライメントを解析・評価し、定量的検索精度指標、一般化可能性を調べるゼロショット分類、あるモダリティから別のモダリティへの知識伝達の程度を観測するエンコーダの探索などを行った。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Topic-DPR: Topic-based Prompts for Dense Passage Retrieval [6.265789210037749]
トピックベースのプロンプトを用いた高密度経路探索モデルであるTopic-DPRを提案する。
本稿では, 半構造化データを利用して高密度検索効率を向上させる, 新規な正負サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T13:45:24Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Coherence and Diversity through Noise: Self-Supervised Paraphrase
Generation via Structure-Aware Denoising [5.682665111938764]
制御ノイズ注入によるパラフレーズ処理のための教師なしフレームワークであるSCANINGを提案する。
本稿では,オンライン教育に実践的な応用を持つ代数的単語問題を言い換える新しい課題に焦点をあてる。
我々はSCANingが意味保存と多種多様なパラフレーズの生成の両方の観点から性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-02-06T13:50:57Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Metaphor Detection using Deep Contextualized Word Embeddings [0.0]
本稿では, 単語埋め込み, 双方向LSTM, マルチヘッドアテンション機構からなるエンドツーエンド手法を提案する。
本手法では,フレーズの比喩性を検出するために,入力特徴として生のテキストシーケンスのみを必要とする。
論文 参考訳(メタデータ) (2020-09-26T11:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。