論文の概要: Unified Multimodal Punctuation Restoration Framework for Mixed-Modality
Corpus
- arxiv url: http://arxiv.org/abs/2202.00468v1
- Date: Mon, 24 Jan 2022 10:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-06 08:15:53.740181
- Title: Unified Multimodal Punctuation Restoration Framework for Mixed-Modality
Corpus
- Title(参考訳): 混合モダリティコーパスのための統一多モード振れ復元フレームワーク
- Authors: Yaoming Zhu, Liwei Wu, Shanbo Cheng, Mingxuan Wang
- Abstract要約: 本報告では,UniPuncというマルチモーダル句読点復元フレームワークを提案する。
UniPuncは混合文を単一のモデルで句読する。
実世界のデータセットに対するUniPuncの有効性を検証する。
- 参考スコア(独自算出の注目度): 41.32048076609525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The punctuation restoration task aims to correctly punctuate the output
transcriptions of automatic speech recognition systems. Previous punctuation
models, either using text only or demanding the corresponding audio, tend to be
constrained by real scenes, where unpunctuated sentences are a mixture of those
with and without audio. This paper proposes a unified multimodal punctuation
restoration framework, named UniPunc, to punctuate the mixed sentences with a
single model. UniPunc jointly represents audio and non-audio samples in a
shared latent space, based on which the model learns a hybrid representation
and punctuates both kinds of samples. We validate the effectiveness of the
UniPunc on real-world datasets, which outperforms various strong baselines
(e.g. BERT, MuSe) by at least 0.8 overall F1 scores, making a new
state-of-the-art. Extensive experiments show that UniPunc's design is a
pervasive solution: by grafting onto previous models, UniPunc enables them to
punctuate on the mixed corpus. Our code is available at
github.com/Yaoming95/UniPunc
- Abstract(参考訳): 句読点復元タスクは,自動音声認識システムの出力書き起こしを正しく句読点することを目的としている。
以前の句読点モデルは、テキストのみを使用するか、対応する音声を要求するかのいずれかで、実際のシーンによって制約される傾向がある。
本論文では,混合文を単一モデルで句読点する,UniPuncという統合多モーダル句読点復元フレームワークを提案する。
UniPuncは共有潜在空間における音声と非音響のサンプルを共同で表現し、モデルがハイブリッド表現を学習し、両方の種類のサンプルを句読する。
実世界のデータセットに対するUniPuncの有効性を検証し、様々な強力なベースライン(BERT、MuSeなど)を少なくとも0.8の総合F1スコアで上回り、新しい最先端のデータベースを作成する。
広範な実験により、unipuncの設計は広く普及した解決策であることが示され、以前のモデルにグラフトすることで、unipuncは混合コーパス上で句読化を可能にする。
私たちのコードはgithub.com/Yaoming95/UniPuncで利用可能です。
関連論文リスト
- Speech Separation with Pretrained Frontend to Minimize Domain Mismatch [42.63061599979695]
音声分離は、個々の音声信号を音声混合物から分離しようとする。
ほとんどの分離モデルは、現実のパーティーシナリオでターゲット参照が利用できないため、合成データに基づいて訓練されている。
対象参照音声を必要とせずに混合データに露呈する自己教師付きドメイン不変プレトレーニング(DIP)を提案する。
論文 参考訳(メタデータ) (2024-11-05T13:30:27Z) - VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing [20.446399170808682]
本稿では,新しい音声合成フレームワークであるVoiceShopを紹介する。
年齢、性別、アクセント、音声スタイルなど、音声の複数の属性を、1つの前方通過で変更することができる。
変換効果の大きさは弱く、分布外話者にはゼロショット能力がない、あるいは合成された出力は望ましくない音色漏れを示す。
論文 参考訳(メタデータ) (2024-04-10T01:33:08Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - UniTTS: Residual Learning of Unified Embedding Space for Speech Style
Control [2.3526458707956643]
干渉を回避し、重なり合うスタイル属性を学習し、制御する新しい高忠実表現型音声モデルUniTTSを提案する。
UniTTSは、属性の適用前後の音素埋め込み間の残差によって、単一の統合埋め込み空間における複数のスタイル属性を表す。
提案手法は,話者IDや感情などのクリーンな分離が難しい複数の属性を制御するのに有効である。
論文 参考訳(メタデータ) (2021-06-21T15:07:09Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。