論文の概要: In-Context Prompt Editing For Conditional Audio Generation
- arxiv url: http://arxiv.org/abs/2311.00895v1
- Date: Wed, 1 Nov 2023 23:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:31:08.995385
- Title: In-Context Prompt Editing For Conditional Audio Generation
- Title(参考訳): 条件付きオーディオ生成のためのインコンテキストプロンプト編集
- Authors: Ernie Chang, Pin-Jie Lin, Yang Li, Sidd Srinivasan, Gael Le Lan, David
Kant, Yangyang Shi, Forrest Iandola, Vikas Chandra
- Abstract要約: 分散シフトは、機械学習モデルのデプロイにおける中心的な課題である。
本稿では,検索に基づくテキスト内プロンプト編集フレームワークを提案する。
このフレームワークは,収集したユーザプロンプトの集合に対して,音質を向上することを示した。
- 参考スコア(独自算出の注目度): 15.701654599104435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional shift is a central challenge in the deployment of machine
learning models as they can be ill-equipped for real-world data. This is
particularly evident in text-to-audio generation where the encoded
representations are easily undermined by unseen prompts, which leads to the
degradation of generated audio -- the limited set of the text-audio pairs
remains inadequate for conditional audio generation in the wild as user prompts
are under-specified. In particular, we observe a consistent audio quality
degradation in generated audio samples with user prompts, as opposed to
training set prompts. To this end, we present a retrieval-based in-context
prompt editing framework that leverages the training captions as demonstrative
exemplars to revisit the user prompts. We show that the framework enhanced the
audio quality across the set of collected user prompts, which were edited with
reference to the training captions as exemplars.
- Abstract(参考訳): 分散シフトは、現実世界のデータに不備があるため、機械学習モデルのデプロイにおいて中心的な課題である。
これは、符号化された表現が、未確認のプロンプトによって容易に損なわれ、生成したオーディオの劣化を引き起こすテキスト・オーディオ生成において特に顕著である。
特に,学習セットのプロンプトとは対照的に,ユーザがプロンプトで生成した音声サンプルの音響品質の一貫した劣化を観察する。
そこで本研究では,ユーザプロンプトを再考するために,トレーニングキャプションを実証例として活用する,検索ベースのインコンテキストプロンプト編集フレームワークを提案する。
このフレームワークは,トレーニングキャプションを例示として編集した,収集したユーザプロンプトの集合に対して,音質を向上することを示した。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - On The Open Prompt Challenge In Conditional Audio Generation [25.178010153697976]
テキスト・トゥ・オーディオ・ジェネレーション(TTA)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。
我々は、TTAモデルをブラックボックスとして扱い、2つの重要な洞察でユーザのプロンプト課題に対処する。
音声改善のために,テキスト・オーディオアライメントをマージンランキング学習によるフィードバック信号として活用することを提案する。
論文 参考訳(メタデータ) (2023-11-01T23:33:25Z) - Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - Enhance audio generation controllability through representation
similarity regularization [23.320569279485472]
本稿では,モデル学習における音声表現とテキスト表現のアライメントを強調することによって,音声生成の制御を強化する革新的なアプローチを提案する。
提案手法は、音声と音楽の両方の客観的な指標の改善と、音声生成における人間の知覚の向上につながる。
論文 参考訳(メタデータ) (2023-09-15T21:32:20Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Towards zero-shot Text-based voice editing using acoustic context
conditioning, utterance embeddings, and reference encoders [14.723225542605105]
テキストベースの音声編集(TBVE)は、テキスト音声合成システム(TTS)からの合成出力を使用して、オリジナル録音中の単語を置き換える。
近年の研究では、ニューラルモデルを用いて、明瞭さ、話者識別、韻律の観点から、オリジナルの音声に似た編集された音声を生成する。
この研究は、微調整を完全に回避するゼロショットアプローチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-28T10:31:44Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。