論文の概要: Unsupervised Mismatch Localization in Cross-Modal Sequential Data
- arxiv url: http://arxiv.org/abs/2205.02670v1
- Date: Thu, 5 May 2022 14:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 21:23:20.735236
- Title: Unsupervised Mismatch Localization in Cross-Modal Sequential Data
- Title(参考訳): クロスモーダルシーケンシャルデータにおける教師なしミスマッチ局在
- Authors: Wei Wei, Huang Hengguan, Gu Xiangming, Wang Hao, Wang Ye
- Abstract要約: 我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
- 参考スコア(独自算出の注目度): 5.932046800902776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content mismatch usually occurs when data from one modality is translated to
another, e.g. language learners producing mispronunciations (errors in speech)
when reading a sentence (target text) aloud. However, most existing alignment
algorithms assume the content involved in the two modalities is perfectly
matched and thus leading to difficulty in locating such mismatch between speech
and text. In this work, we develop an unsupervised learning algorithm that can
infer the relationship between content-mismatched cross-modal sequential data,
especially for speech-text sequences. More specifically, we propose a
hierarchical Bayesian deep learning model, named mismatch localization
variational autoencoder (ML-VAE), that decomposes the generative process of the
speech into hierarchically structured latent variables, indicating the
relationship between the two modalities. Training such a model is very
challenging due to the discrete latent variables with complex dependencies
involved. We propose a novel and effective training procedure which estimates
the hard assignments of the discrete latent variables over a specifically
designed lattice and updates the parameters of neural networks alternatively.
Our experimental results show that ML-VAE successfully locates the mismatch
between text and speech, without the need for human annotations for model
training.
- Abstract(参考訳): コンテンツのミスマッチは通常、あるモダリティからのデータが別のモダリティに翻訳されたときに発生する。例えば、言語学習者が文(ターゲットテキスト)を声高に読む際に、誤用(発話の誤り)を引き起こす。
しかし、既存のアライメントアルゴリズムの多くは、2つのモダリティに関連する内容が完全に一致すると仮定しており、音声とテキストのミスマッチを見つけるのが困難である。
本研究では,コンテンツミスマッチしたクロスモーダルシーケンシャルデータ,特に音声テキスト列の関係を推定する教師なし学習アルゴリズムを開発した。
具体的には,言語生成過程を階層的に構造化された潜在変数に分解し,両者の関係を示す,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
このようなモデルのトレーニングは、複雑な依存関係を持つ離散的潜在変数のため、非常に難しい。
本稿では,ニューラルネットワークのパラメータを動的に更新し,離散潜在変数の厳密な割り当てを特定の格子上で推定する,新しい効果的なトレーニング手法を提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
関連論文リスト
- Contextual Biasing to Improve Domain-specific Custom Vocabulary Audio Transcription without Explicit Fine-Tuning of Whisper Model [0.0]
OpenAIのWhisper Automated Speech Recognitionモデルでは、さまざまなデータセットやドメインをまたいだ一般化が優れている。
モデルパラメータを明示的に微調整したり変更したりすることなく、転写精度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T01:58:11Z) - Co-Driven Recognition of Semantic Consistency via the Fusion of
Transformer and HowNet Sememes Knowledge [6.184249194474601]
本稿では,Transformer と HowNet のセメム知識の融合に基づく協調型意味的一貫性認識手法を提案する。
BiLSTMは概念的意味情報をエンコードし、意味的一貫性を推測するために利用される。
論文 参考訳(メタデータ) (2023-02-21T09:53:19Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Extracting Grammars from a Neural Network Parser for Anomaly Detection
in Unknown Formats [79.6676793507792]
強化学習は、ある未知のフォーマットで文を解析するために、人工知能を訓練する技術として、最近約束されている。
本稿では、ニューラルネットワークから生成規則を抽出し、これらの規則を用いて、ある文が名目か異常かを決定する手順を提案する。
論文 参考訳(メタデータ) (2021-07-30T23:10:24Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。