論文の概要: StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models
- arxiv url: http://arxiv.org/abs/2311.16509v1
- Date: Tue, 28 Nov 2023 04:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 20:02:58.602449
- Title: StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models
- Title(参考訳): StyleCap: 音声と言語による自己教師型学習モデルに基づく音声の自動キャプション
- Authors: Kazuki Yamauchi, Yusuke Ijima, Yuki Saito
- Abstract要約: StyleCapは、音声に現れる話し方の自然言語記述を生成する方法である。
StyleCapは、大きな言語モデル(LLM)ベースのテキストデコーダに入力されたプレフィックスベクトルを、音声表現ベクトルから予測するニューラルネットワークを訓練する。
- 参考スコア(独自算出の注目度): 17.945821635380614
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose StyleCap, a method to generate natural language descriptions of
speaking styles appearing in speech. Although most of conventional techniques
for para-/non-linguistic information recognition focus on the category
classification or the intensity estimation of pre-defined labels, they cannot
provide the reasoning of the recognition result in an interpretable manner. As
a first step towards an end-to-end method for generating speaking-style prompts
from speech, i.e., automatic speaking-style captioning, StyleCap uses paired
data of speech and natural language descriptions to train neural networks that
predict prefix vectors fed into a large language model (LLM)-based text decoder
from a speech representation vector. We explore an appropriate text decoder and
speech feature representation suitable for this new task. The experimental
results demonstrate that our StyleCap leveraging richer LLMs for the text
decoder, speech self-supervised learning (SSL) features, and sentence
rephrasing augmentation improves the accuracy and diversity of generated
speaking-style captions. Samples of speaking-style captions generated by our
StyleCap are publicly available.
- Abstract(参考訳): 音声に現れる話し方の自然言語記述を生成する方法であるStyleCapを提案する。
従来のパラ言語/非言語情報認識技術のほとんどは、分類分類や事前定義されたラベルの強度推定に重点を置いているが、認識結果を解釈可能な方法で推論することはできない。
stylecapは、音声から発話スタイルプロンプトを生成するエンドツーエンドの方法、すなわち自動発話スタイルのキャプションを生成するための第一歩として、音声と自然言語記述のペアデータを使用して、音声表現ベクトルから大言語モデル(llm)ベースのテキストデコーダに供給されるプレフィックスベクトルを予測するニューラルネットワークを訓練する。
本稿では,この課題に適したテキストデコーダと音声特徴表現について検討する。
実験結果から,よりリッチなLLMをテキストデコーダ,音声自己教師学習(SSL)機能に活用したStyleCapは,音声文の精度と多様性を向上することが示された。
StyleCapが生成した話し方キャプションのサンプルが公開されている。
関連論文リスト
- DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - Factor-Conditioned Speaking-Style Captioning [32.67274840212351]
本稿では、まず、話し方を表すフレーズを出力する因子条件付きキャプション(FCC)を紹介する。
FCCは、モデルが話し方的な要素を明示的に学習することを保証するキャプションを生成する。
また、まず、意味的正確性を保証するために、言語的要因を決定的に予測するgreedy-then-sampling (GtS)デコーディングを提案する。
論文 参考訳(メタデータ) (2024-06-27T05:52:10Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any
Voice Conversion using Only Speech Data [2.6217304977339473]
本稿では,ターゲット発話からリッチなスタイル情報を抽出し,ソース音声コンテンツに効率的に転送する手法を提案する。
提案手法では,自己教師付き学習(SSL)モデルを用いた注意機構を提案する。
実験結果から,提案手法と拡散型生成モデルを組み合わせることで,任意の音声変換タスクにおいて,話者の類似性が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T05:33:54Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with
Unpaired Stylistic Corpora [37.53634609063878]
我々は,ADS-Cap(ADS-Cap)を精度良く生成する新しいフレームワークを提案する。
その後、条件付き変分自動エンコーダを使用して、潜在空間における多彩なスタイリスティックパターンを自動的に生成する。
広く使われている2つの画像キャプションデータセットの実験結果から,画像との整合性,スタイルの精度,多様性に関して,ADS-Capは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-08-02T13:33:20Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。