論文の概要: IteraTTA: An interface for exploring both text prompts and audio priors
in generating music with text-to-audio models
- arxiv url: http://arxiv.org/abs/2307.13005v1
- Date: Mon, 24 Jul 2023 11:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:33:28.949820
- Title: IteraTTA: An interface for exploring both text prompts and audio priors
in generating music with text-to-audio models
- Title(参考訳): IteraTTA: テキスト音声モデルによる音楽生成におけるテキストプロンプトとオーディオ先行の両方を探索するインターフェース
- Authors: Hiromu Yakura and Masataka Goto
- Abstract要約: IteraTTAは、ユーザーがテキストプロンプトを書き換えたり、生成されたオーディオから好ましいオーディオを選択できるように設計されている。
本実装と議論は,テキスト・トゥ・オーディオ・モデルに特に必要とされる設計上の考察を強調した。
- 参考スコア(独自算出の注目度): 40.798454815430034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-audio generation techniques have the potential to allow novice
users to freely generate music audio. Even if they do not have musical
knowledge, such as about chord progressions and instruments, users can try
various text prompts to generate audio. However, compared to the image domain,
gaining a clear understanding of the space of possible music audios is
difficult because users cannot listen to the variations of the generated audios
simultaneously. We therefore facilitate users in exploring not only text
prompts but also audio priors that constrain the text-to-audio music generation
process. This dual-sided exploration enables users to discern the impact of
different text prompts and audio priors on the generation results through
iterative comparison of them. Our developed interface, IteraTTA, is
specifically designed to aid users in refining text prompts and selecting
favorable audio priors from the generated audios. With this, users can
progressively reach their loosely-specified goals while understanding and
exploring the space of possible results. Our implementation and discussions
highlight design considerations that are specifically required for
text-to-audio models and how interaction techniques can contribute to their
effectiveness.
- Abstract(参考訳): 近年のテキスト音声生成技術は、初心者が自由に音楽音声を生成できる可能性を持っている。
和音の進行や楽器などの音楽的な知識がなくても、ユーザーは様々なテキストプロンプトを試して音声を生成することができる。
しかし、画像領域と比較して、ユーザが生成したオーディオのバリエーションを同時に聴くことができないため、可能なオーディオの空間を明確に理解することは困難である。
したがって、テキストプロンプトだけでなく、テキストからオーディオへの音楽生成プロセスを制約するオーディオプリミティブの探索を支援する。
この両面探索により、ユーザは異なるテキストプロンプトとオーディオ先行が生成結果に与える影響を反復的に比較することで判別することができる。
開発したインターフェースであるIeraTTAは、ユーザがテキストプロンプトを精細化し、生成したオーディオから好ましいオーディオを選択できるように特別に設計されている。
これにより、ユーザは、考えられる結果の空間を理解し、探索しながら、ゆるやかに特定された目標に到達することができる。
実装と議論は,テキスト音声モデルに特に求められる設計上の考察と,インタラクション技術がそれらの効果にどのように寄与するかを強調する。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - On The Open Prompt Challenge In Conditional Audio Generation [25.178010153697976]
テキスト・トゥ・オーディオ・ジェネレーション(TTA)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。
我々は、TTAモデルをブラックボックスとして扱い、2つの重要な洞察でユーザのプロンプト課題に対処する。
音声改善のために,テキスト・オーディオアライメントをマージンランキング学習によるフィードバック信号として活用することを提案する。
論文 参考訳(メタデータ) (2023-11-01T23:33:25Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。