論文の概要: Synthetic Audio Helps for Cognitive State Tasks
- arxiv url: http://arxiv.org/abs/2502.06922v1
- Date: Mon, 10 Feb 2025 17:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:42.555837
- Title: Synthetic Audio Helps for Cognitive State Tasks
- Title(参考訳): 認知状態課題のための合成音声支援
- Authors: Adil Soubki, John Murzaku, Peter Zeng, Owen Rambow,
- Abstract要約: テキスト音声合成モデルでは,自然な音声を生成するために,認知状態の側面の追跡を学習する。
我々は、認知状態モデリングに関連する7つのタスクがマルチモーダルトレーニングの恩恵を受けることを示すフレームワークであるSynthetic Audio Data Fine-tuning(SAD)を提案する。
- 参考スコア(独自算出の注目度): 5.372301053935417
- License:
- Abstract: The NLP community has broadly focused on text-only approaches of cognitive state tasks, but audio can provide vital missing cues through prosody. We posit that text-to-speech models learn to track aspects of cognitive state in order to produce naturalistic audio, and that the signal audio models implicitly identify is orthogonal to the information that language models exploit. We present Synthetic Audio Data fine-tuning (SAD), a framework where we show that 7 tasks related to cognitive state modeling benefit from multimodal training on both text and zero-shot synthetic audio data from an off-the-shelf TTS system. We show an improvement over the text-only modality when adding synthetic audio data to text-only corpora. Furthermore, on tasks and corpora that do contain gold audio, we show our SAD framework achieves competitive performance with text and synthetic audio compared to text and gold audio.
- Abstract(参考訳): NLPコミュニティは、認知状態タスクのテキストのみのアプローチに重点を置いているが、音声は韻律を通して欠落する重要な手がかりを提供することができる。
テキスト音声合成モデルでは,自然な音声を生成するために認知状態の側面の追跡を学習し,暗黙的に識別する信号音声モデルは,言語モデルが活用する情報に対して直交的であると仮定する。
テキストとゼロショット合成音声データの双方で、認識状態モデリングに関連する7つのタスクが、既製のTSSシステムから得られるマルチモーダルトレーニングから恩恵を受けることを示すフレームワークであるSynthetic Audio Data Fine-tuning(SAD)を提案する。
テキストのみのコーパスに合成音声データを追加する場合,テキストのみのモダリティよりも向上することを示す。
さらに,ゴールドオーディオを含むタスクやコーパスにおいて,テキストや合成音声と競合する性能を示す。
関連論文リスト
- Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。