論文の概要: Multimodal Belief Prediction
- arxiv url: http://arxiv.org/abs/2406.07466v1
- Date: Tue, 11 Jun 2024 17:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:55:29.179013
- Title: Multimodal Belief Prediction
- Title(参考訳): マルチモーダルな信念予測
- Authors: John Murzaku, Adil Soubki, Owen Rambow,
- Abstract要約: 我々は,マルチモーダルな信念予測タスクについて,まずその結果を提示する。
CB-Prosody corpus (CBP) を用いて, 話者信念アノテーションを付加したアライメントテキストと音声を含む。
次に,BERT と Whisper を微調整した CBP コーパスのテキストベースラインと音声ベースラインをそれぞれ提示する。
- 参考スコア(独自算出の注目度): 5.664030262812715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing a speaker's level of commitment to a belief is a difficult task; humans do not only interpret the meaning of the words in context, but also understand cues from intonation and other aspects of the audio signal. Many papers and corpora in the NLP community have approached the belief prediction task using text-only approaches. We are the first to frame and present results on the multimodal belief prediction task. We use the CB-Prosody corpus (CBP), containing aligned text and audio with speaker belief annotations. We first report baselines and significant features using acoustic-prosodic features and traditional machine learning methods. We then present text and audio baselines for the CBP corpus fine-tuning on BERT and Whisper respectively. Finally, we present our multimodal architecture which fine-tunes on BERT and Whisper and uses multiple fusion methods, improving on both modalities alone.
- Abstract(参考訳): 人間は言葉の意味を文脈で解釈するだけでなく、イントネーションや音声信号の他の側面からの手がかりも理解している。
NLPコミュニティの多くの論文やコーパスは、テキストのみのアプローチを用いて信念予測タスクにアプローチしている。
我々は,マルチモーダルな信念予測タスクについて,まずその結果を提示する。
CB-Prosody corpus (CBP) を用いて, 話者信念アノテーションを付加したアライメントテキストと音声を含む。
まず、音響韻律的特徴と従来の機械学習手法を用いて、ベースラインと重要な特徴を報告する。
次に,BERT と Whisper を微調整した CBP コーパスのテキストベースラインと音声ベースラインをそれぞれ提示する。
最後に,BERTとWhisperを微調整したマルチモーダルアーキテクチャを提案する。
関連論文リスト
- Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation [5.528860524494717]
本稿では,光沢に基づくアノテーションを利用してマルチモーダル理解を簡素化する,BGTAIと呼ばれる革新的な手法を提案する。
テキストと音声を、複雑な意味的ニュアンスを省略するグロス表記として表現することで、画像との整合性が向上する可能性がある。
論文 参考訳(メタデータ) (2024-10-04T04:59:50Z) - Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling [13.757256085713571]
本稿では,新たな2段階予測パイプラインであるTAP-FMを提案する。
具体的には,マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。
本フレームワークは,グローバル・ローカル・テキスト・オーディオ・セマンティクスと音響表現の両方を深く掘り下げる機能を示す。
論文 参考訳(メタデータ) (2024-04-14T08:56:19Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。