論文の概要: On The Open Prompt Challenge In Conditional Audio Generation
- arxiv url: http://arxiv.org/abs/2311.00897v1
- Date: Wed, 1 Nov 2023 23:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:31:28.738999
- Title: On The Open Prompt Challenge In Conditional Audio Generation
- Title(参考訳): 条件付きオーディオ生成におけるオープンプロンプトチャレンジについて
- Authors: Ernie Chang, Sidd Srinivasan, Mahi Luthra, Pin-Jie Lin, Varun
Nagaraja, Forrest Iandola, Zechun Liu, Zhaoheng Ni, Changsheng Zhao, Yangyang
Shi and Vikas Chandra
- Abstract要約: テキスト・トゥ・オーディオ・ジェネレーション(TTA)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。
我々は、TTAモデルをブラックボックスとして扱い、2つの重要な洞察でユーザのプロンプト課題に対処する。
音声改善のために,テキスト・オーディオアライメントをマージンランキング学習によるフィードバック信号として活用することを提案する。
- 参考スコア(独自算出の注目度): 25.178010153697976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-audio generation (TTA) produces audio from a text description,
learning from pairs of audio samples and hand-annotated text. However,
commercializing audio generation is challenging as user-input prompts are often
under-specified when compared to text descriptions used to train TTA models. In
this work, we treat TTA models as a ``blackbox'' and address the user prompt
challenge with two key insights: (1) User prompts are generally
under-specified, leading to a large alignment gap between user prompts and
training prompts. (2) There is a distribution of audio descriptions for which
TTA models are better at generating higher quality audio, which we refer to as
``audionese''. To this end, we rewrite prompts with instruction-tuned models
and propose utilizing text-audio alignment as feedback signals via margin
ranking learning for audio improvements. On both objective and subjective human
evaluations, we observed marked improvements in both text-audio alignment and
music audio quality.
- Abstract(参考訳): text-to-audio generation (tta)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。
しかし、TTAモデルのトレーニングに使用されるテキスト記述と比較すると、ユーザ入力プロンプトが過小評価されることが多いため、音声生成の商業化は困難である。
本研究では,ttaモデルを ``blackbox'' として扱い,ユーザプロンプトの課題に対して,(1)ユーザのプロンプトは一般的に不特定であり,ユーザのプロンプトとトレーニングプロンプトの間に大きな差異が生じる。
2) ttaモデルが高品質な音声を生成するのに優れている音声記述の分布があり、これを `audionese'' と呼ぶ。
そこで本研究では,テキスト音声アライメントを音質改善のためのマージンランキング学習によるフィードバック信号として利用することを提案する。
客観的評価と主観的評価の両方において,音声・音声のアライメントと音質の有意な改善がみられた。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - IteraTTA: An interface for exploring both text prompts and audio priors
in generating music with text-to-audio models [40.798454815430034]
IteraTTAは、ユーザーがテキストプロンプトを書き換えたり、生成されたオーディオから好ましいオーディオを選択できるように設計されている。
本実装と議論は,テキスト・トゥ・オーディオ・モデルに特に必要とされる設計上の考察を強調した。
論文 参考訳(メタデータ) (2023-07-24T11:00:01Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。