論文の概要: A novel multimodal dynamic fusion network for disfluency detection in
spoken utterances
- arxiv url: http://arxiv.org/abs/2211.14700v1
- Date: Sun, 27 Nov 2022 01:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:05:25.121092
- Title: A novel multimodal dynamic fusion network for disfluency detection in
spoken utterances
- Title(参考訳): 音声発話における拡散検出のための新しいマルチモーダルダイナミックフュージョンネットワーク
- Authors: Sreyan Ghosh and Utkarsh Tyagi and Sonal Kumar and Manan Suri and
Rajiv Ratn Shah
- Abstract要約: 個人発話からの拡散検出のための新しいマルチモーダルアーキテクチャを提案する。
我々のアーキテクチャは、既存のテキストエンコーダに最小限のパラメータを追加するマルチモーダルダイナミックフュージョンネットワークを活用している。
提案手法は, 広範に使われている英語スイッチボードを用いて, ディフルエンシ検出のための最新の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 43.79216238760557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disfluency, though originating from human spoken utterances, is primarily
studied as a uni-modal text-based Natural Language Processing (NLP) task. Based
on early-fusion and self-attention-based multimodal interaction between text
and acoustic modalities, in this paper, we propose a novel multimodal
architecture for disfluency detection from individual utterances. Our
architecture leverages a multimodal dynamic fusion network that adds minimal
parameters over an existing text encoder commonly used in prior art to leverage
the prosodic and acoustic cues hidden in speech. Through experiments, we show
that our proposed model achieves state-of-the-art results on the widely used
English Switchboard for disfluency detection and outperforms prior unimodal and
multimodal systems in literature by a significant margin. In addition, we make
a thorough qualitative analysis and show that, unlike text-only systems, which
suffer from spurious correlations in the data, our system overcomes this
problem through additional cues from speech signals. We make all our codes
publicly available on GitHub.
- Abstract(参考訳): disfluencyは、人間の話し言葉に由来するが、主にnlp(uni-modal text-based natural language processing)タスクとして研究されている。
本稿では,テキストと音響モダリティの早期融合と自己注意に基づくマルチモーダル相互作用に基づいて,個人発話からの拡散検出のための新しいマルチモーダルアーキテクチャを提案する。
我々のアーキテクチャはマルチモーダル動的融合ネットワークを利用しており、既存のテキストエンコーダよりも最小限のパラメータを追加して、音声に隠された韻律的および音響的手がかりを活用している。
実験により,提案手法は,文献の非モーダル・マルチモーダルシステムにおいて,分散検出および性能向上のために広く用いられている英語スイッチボード上で,最先端の結果が得られることを示す。
さらに,データに重複する相関に苦しむテキストのみシステムとは異なり,音声信号からの新たな手がかりによってこの問題を克服することを示す。
すべてのコードをgithubで公開しています。
関連論文リスト
- Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [34.28164104577455]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z) - AI-generated text boundary detection with RoFT [7.2286849324485445]
テキストの書き起こし部分と機械生成部分の境界を検出する方法について検討する。
特に,境界検出に対するパープレキシティに基づくアプローチは,RoBERTaモデルの教師付き微調整よりも,ドメイン固有データの特異性に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-11-14T17:48:19Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Cross-stitched Multi-modal Encoders [17.387919594858463]
マルチヘッド・クロスモーダル・アテンションを用いた事前学習音声とテキストエンコーダを組み合わせる。
結果として得られるアーキテクチャは、連続的なトークンレベルの分類や発話レベルの予測に使用することができる。
私たちのモデルアーキテクチャはコンパクトでリソース効率が良く、単一のコンシューマGPUカードでトレーニングすることができます。
論文 参考訳(メタデータ) (2022-04-20T05:09:36Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。