論文の概要: Analysis of Joint Speech-Text Embeddings for Semantic Matching
- arxiv url: http://arxiv.org/abs/2204.01235v1
- Date: Mon, 4 Apr 2022 04:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:16:32.242435
- Title: Analysis of Joint Speech-Text Embeddings for Semantic Matching
- Title(参考訳): 意味マッチングのための統合音声テキスト埋め込みの解析
- Authors: Muhammad Huzaifah and Ivan Kukanov
- Abstract要約: ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
- 参考スコア(独自算出の注目度): 3.6423306784901235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Embeddings play an important role in many recent end-to-end solutions for
language processing problems involving more than one data modality. Although
there has been some effort to understand the properties of single-modality
embedding spaces, particularly that of text, their cross-modal counterparts are
less understood. In this work, we study a joint speech-text embedding space
trained for semantic matching by minimizing the distance between paired
utterance and transcription inputs. This was done through dual encoders in a
teacher-student model setup, with a pretrained language model acting as the
teacher and a transformer-based speech encoder as the student. We extend our
method to incorporate automatic speech recognition through both pretraining and
multitask scenarios and found that both approaches improve semantic matching.
Multiple techniques were utilized to analyze and evaluate cross-modal semantic
alignment of the embeddings: a quantitative retrieval accuracy metric,
zero-shot classification to investigate generalizability, and probing of the
encoders to observe the extent of knowledge transfer from one modality to
another.
- Abstract(参考訳): 複数のデータモダリティを含む言語処理問題に対する近年のエンドツーエンドソリューションにおいて、埋め込みは重要な役割を果たす。
単一モダリティ埋め込み空間、特にテキストの性質を理解する努力はあったが、それらの交叉モダリティ空間は理解されていない。
本研究では,ペア音声と書き起こし入力の距離を最小化し,意味マッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
これは教師-学生モデル構成のデュアルエンコーダで行われ、教師として事前訓練された言語モデルと、生徒としてトランスフォーマーベースの音声エンコーダによって行われた。
我々は,事前学習とマルチタスクの両方のシナリオを通じて自動音声認識を組み込む手法を拡張し,両者がセマンティックマッチングを改善することを発見した。
複数の手法を用いて埋め込みのクロスモーダルセマンティクスアライメントを解析・評価し、定量的検索精度指標、一般化可能性を調べるゼロショット分類、あるモダリティから別のモダリティへの知識伝達の程度を観測するエンコーダの探索などを行った。
関連論文リスト
- Topic-DPR: Topic-based Prompts for Dense Passage Retrieval [6.265789210037749]
トピックベースのプロンプトを用いた高密度経路探索モデルであるTopic-DPRを提案する。
本稿では, 半構造化データを利用して高密度検索効率を向上させる, 新規な正負サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T13:45:24Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Coherence and Diversity through Noise: Self-Supervised Paraphrase
Generation via Structure-Aware Denoising [5.682665111938764]
制御ノイズ注入によるパラフレーズ処理のための教師なしフレームワークであるSCANINGを提案する。
本稿では,オンライン教育に実践的な応用を持つ代数的単語問題を言い換える新しい課題に焦点をあてる。
我々はSCANingが意味保存と多種多様なパラフレーズの生成の両方の観点から性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-02-06T13:50:57Z) - Pre-trained Sentence Embeddings for Implicit Discourse Relation
Classification [26.973476248983477]
暗黙の談話関係は、より小さな言語単位を一貫性のあるテキストに結合する。
本稿では,暗黙的対話関係感覚分類のためのニューラルネットワークにおけるベース表現として,事前学習文の埋め込みの有用性について検討する。
論文 参考訳(メタデータ) (2022-10-20T04:17:03Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Metaphor Detection using Deep Contextualized Word Embeddings [0.0]
本稿では, 単語埋め込み, 双方向LSTM, マルチヘッドアテンション機構からなるエンドツーエンド手法を提案する。
本手法では,フレーズの比喩性を検出するために,入力特徴として生のテキストシーケンスのみを必要とする。
論文 参考訳(メタデータ) (2020-09-26T11:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。