Fugu-MT 論文翻訳(概要): Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

論文の概要: Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

arxiv url: http://arxiv.org/abs/2402.10009v1
Date: Thu, 15 Feb 2024 15:17:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 15:11:10.605386
Title: Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion
Title（参考訳）: ddpmインバージョンを用いたゼロショット教師なし音声編集
Authors: Hila Manor and Tomer Michaeli
Abstract要約: 本稿では,音声信号のゼロショット編集手法を2つ検討する。 1つ目は画像領域から採用され、テキストベースの編集が可能である。 2つ目は、意味的に意味のある編集方向を監督せずに発見するための新しいアプローチである。
参考スコア（独自算出の注目度）: 28.233696029453775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Editing signals using large pre-trained models, in a zero-shot manner, has recently seen rapid advancements in the image domain. However, this wave has yet to reach the audio domain. In this paper, we explore two zero-shot editing techniques for audio signals, which use DDPM inversion on pre-trained diffusion models. The first, adopted from the image domain, allows text-based editing. The second, is a novel approach for discovering semantically meaningful editing directions without supervision. When applied to music signals, this method exposes a range of musically interesting modifications, from controlling the participation of specific instruments to improvisations on the melody. Samples can be found on our examples page in https://hilamanor.github.io/AudioEditing/ and code can be found in https://github.com/hilamanor/AudioEditing/ .
Abstract（参考訳）: 大規模な事前学習モデルを用いて、ゼロショットで信号を編集する手法は、最近画像領域で急速に進歩している。しかし、この波はまだオーディオ領域に届いていない。本稿では,事前学習した拡散モデルにおけるDDPMインバージョンを用いた2つのゼロショット音声信号編集手法について検討する。画像ドメインから採用された最初のものは、テキストベースの編集を可能にする。 2つ目は、意味的に意味のある編集方向を監督せずに発見するための新しいアプローチである。音楽信号に適用すると、特定の楽器の参加の制御からメロディの即興演奏まで、音楽的に興味深い変更が多岐にわたることが分かる。サンプルは例の https://github.io/AudioEditing/ で、コードは https://github.com/hilamanor/AudioEditing/ で見ることができる。

関連論文リスト

Guiding Audio Editing with Audio Language Model [13.126858950459557]
本稿では,ステレオ音声編集のための新しいフレームワークであるSmartDJを紹介する。高レベルの命令が与えられたら、SmartDJはそれを一連のアトミックな編集操作に分解する。これらの操作はステレオオーディオを操作するために訓練された拡散モデルによって実行される。
論文参考訳（メタデータ） (2025-09-25T21:43:45Z)
Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。 VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。 1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文参考訳（メタデータ） (2025-08-21T17:59:32Z)
EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文参考訳（メタデータ） (2025-07-15T08:44:11Z)
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。 FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳（メタデータ） (2025-03-25T16:59:42Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文参考訳（メタデータ） (2024-05-11T07:41:27Z)
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文参考訳（メタデータ） (2024-04-15T17:31:22Z)
ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。 InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文参考訳（メタデータ） (2023-12-28T02:54:34Z)
MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文参考訳（メタデータ） (2023-11-30T18:59:33Z)
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文参考訳（メタデータ） (2023-08-28T07:11:42Z)
Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。 M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文参考訳（メタデータ） (2023-05-25T02:54:29Z)
AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models [40.13710449689338]
AUDITは遅延拡散モデルに基づく命令誘導音声編集モデルである。複数のオーディオ編集タスクに対する客観的および主観的メトリクスの両面で、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-04-03T09:15:51Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。