論文の概要: Cascaded Cross-Modal Transformer for Request and Complaint Detection
- arxiv url: http://arxiv.org/abs/2307.15097v1
- Date: Thu, 27 Jul 2023 13:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:41:24.737458
- Title: Cascaded Cross-Modal Transformer for Request and Complaint Detection
- Title(参考訳): 要求・苦情検出用カスケードクロスモーダル変圧器
- Authors: Nicolae-Catalin Ristea and Radu Tudor Ionescu
- Abstract要約: 本稿では、音声とテキストの書き起こしを組み合わせて、電話会話における顧客の要求や苦情を検出する新しいケースケード・クロスモーダル・トランスフォーマー(CCMT)を提案する。
提案手法は,自動音声認識(ASR)モデルを用いて音声を翻訳し,異なる言語に翻訳することで,マルチモーダルパラダイムを活用する。
我々は,ACMマルチメディア計算2023パラ言語学チャレンジの要求サブアーキテクチャに適用し,不当な平均リコール(UAR)を65.41%,要求クラスを85.87%とした。
- 参考スコア(独自算出の注目度): 31.359578768463752
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a novel cascaded cross-modal transformer (CCMT) that combines
speech and text transcripts to detect customer requests and complaints in phone
conversations. Our approach leverages a multimodal paradigm by transcribing the
speech using automatic speech recognition (ASR) models and translating the
transcripts into different languages. Subsequently, we combine
language-specific BERT-based models with Wav2Vec2.0 audio features in a novel
cascaded cross-attention transformer model. We apply our system to the Requests
Sub-Challenge of the ACM Multimedia 2023 Computational Paralinguistics
Challenge, reaching unweighted average recalls (UAR) of 65.41% and 85.87% for
the complaint and request classes, respectively.
- Abstract(参考訳): 音声とテキストの書き起こしを組み合わせることで,電話会話における顧客の要求や苦情を検知する,新しいカスケード型クロスモーダルトランスフォーマ(ccmt)を提案する。
本手法は,自動音声認識(asr)モデルを用いて音声を書き起こし,異なる言語に翻訳することで,マルチモーダルパラダイムを活用する。
次に,言語固有のBERTモデルとWav2Vec2.0音声機能を組み合わせた,新しいケースド・クロスアテンション・トランスフォーマモデルを提案する。
本システムは,acmマルチメディア2023計算言語学チャレンジの要求サブキャレンジに適用し,苦情と要求クラスに対して65.41%,85.87%の非重み付け平均リコール(uar)を達成した。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Conversational Speech Recognition by Learning Audio-textual Cross-modal Contextual Representation [27.926862030684926]
クロスモーダルな会話表現を備えたコンフォーマーエンコーダデコーダモデルを拡張した会話型ASRシステムを提案する。
提案手法は、特殊エンコーダとモーダルレベルのマスク入力により、事前訓練された音声とテキストモデルを組み合わせる。
クロスモーダル表現と会話表現の両方をデコーダに導入することで、我々のモデルは情報損失のない長い文よりもコンテキストを保ちます。
論文 参考訳(メタデータ) (2023-10-22T11:57:33Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - SkinAugment: Auto-Encoding Speaker Conversions for Automatic Speech
Translation [12.292167129361825]
自動音声翻訳における訓練データ拡張のための自動符号化話者変換を提案する。
この技術は直接音声シーケンスを変換し、その結果、他の話者の声に似た音声が合成される。
提案手法は,英語$to$ Frenchと英語$to$Romanian Automatic Speech Translation (AST)タスクのSpecAugmentと比較した。
論文 参考訳(メタデータ) (2020-02-27T16:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。