論文の概要: Multimodal Punctuation Prediction with Contextual Dropout
- arxiv url: http://arxiv.org/abs/2102.11012v1
- Date: Fri, 12 Feb 2021 22:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:38:45.929861
- Title: Multimodal Punctuation Prediction with Contextual Dropout
- Title(参考訳): コンテキストドロップアウトによるマルチモーダル句読点予測
- Authors: Andrew Silva, Barry-John Theobald, Nicholas Apostoloff
- Abstract要約: まず,iwslt 2012 tedタスクの8%改善を実現する,句読点予測のためのトランスフォーマティブベースの手法を提案する。
次に、テキストとオーディオの両方から学習するマルチモーダルモデルを記述し、内部データセット上のテキストのみのアルゴリズムよりも8%改善する。
- 参考スコア(独自算出の注目度): 3.0294344089697596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) is widely used in consumer electronics.
ASR greatly improves the utility and accessibility of technology, but usually
the output is only word sequences without punctuation. This can result in
ambiguity in inferring user-intent. We first present a transformer-based
approach for punctuation prediction that achieves 8% improvement on the IWSLT
2012 TED Task, beating the previous state of the art [1]. We next describe our
multimodal model that learns from both text and audio, which achieves 8%
improvement over the text-only algorithm on an internal dataset for which we
have both the audio and transcriptions. Finally, we present an approach to
learning a model using contextual dropout that allows us to handle variable
amounts of future context at test time.
- Abstract(参考訳): 自動音声認識(asr)は家電製品で広く使われている。
ASRは技術の有用性とアクセシビリティを大幅に改善するが、通常出力は句読点のないワードシーケンスのみである。
これにより、ユーザインテントを推測するあいまいさが生じる可能性がある。
まず,IWSLT 2012 TED Taskで8%改善した句読点予測のためのトランスフォーマーベースの手法を提案する。
次に,音声と音声の両方から学習するマルチモーダルモデルについて述べる。音声と書き起こしの両方を持つ内部データセット上で,テキストのみのアルゴリズムよりも8%向上する。
最後に,テスト時に可変量の将来のコンテキストを処理可能なコンテキストドロップアウトを用いたモデル学習手法を提案する。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - This Paper Had the Smartest Reviewers -- Flattery Detection Utilising an Audio-Textual Transformer-Based Approach [42.27824690168642]
フラタリー(英: Flattery)は、人間のコミュニケーションにおいて重要な側面であり、社会的結合を促進し、知覚を形作り、戦略的賞賛と賞賛を通じて行動に影響を与える。
そこで本研究では,20時間の音声と学習機械学習モデルを用いて,フラットな自動検出を行う新しい音声テキストデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T15:57:02Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - Audio-to-Intent Using Acoustic-Textual Subword Representations from
End-to-End ASR [8.832255053182283]
本稿では,サブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。
提案手法は, 意図しないユーザ音声の93.3%を, 99%の正の確率で起動することで, 精度が高いことを示す。
論文 参考訳(メタデータ) (2022-10-21T17:45:00Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems [31.18865184576272]
この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
論文 参考訳(メタデータ) (2022-04-11T15:24:25Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding [18.275646344620387]
本研究では,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを一致させる2段階のテキスト知識蒸留法を提案する。
我々は、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%のテスト精度、10%サブセットで99.5%を達成した。
論文 参考訳(メタデータ) (2020-10-25T12:36:05Z) - Replacing Human Audio with Synthetic Audio for On-device Unspoken
Punctuation Prediction [10.516452073178511]
本稿では,音響的特徴とテキスト的特徴を組み合わせた,英語のマルチモーダル・アンスポークな句読解予測システムを提案する。
本研究では,韻律を意識したテキスト音声合成システムを用いて生成した合成データにのみ依存することで,未知の句読点予測問題に対して,高価な人間の音声録音で訓練されたモデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-10-20T11:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。