Fugu-MT 論文翻訳(概要): Audio Editing with Non-Rigid Text Prompts

論文の概要: Audio Editing with Non-Rigid Text Prompts

arxiv url: http://arxiv.org/abs/2310.12858v3
Date: Tue, 24 Sep 2024 11:25:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 10:01:09.738442
Title: Audio Editing with Non-Rigid Text Prompts
Title（参考訳）: 非デジタルテキストプロンプトによる音声編集
Authors: Francesco Paissan, Luca Della Libera, Zhepei Wang, Mirco Ravanelli, Paris Smaragdis, Cem Subakan,
Abstract要約: 提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
参考スコア（独自算出の注目度）: 24.008609489049206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we explore audio-editing with non-rigid text edits. We show that the proposed editing pipeline is able to create audio edits that remain faithful to the input audio. We explore text prompts that perform addition, style transfer, and in-painting. We quantitatively and qualitatively show that the edits are able to obtain results which outperform Audio-LDM, a recently released text-prompted audio generation model. Qualitative inspection of the results points out that the edits given by our approach remain more faithful to the input audio in terms of keeping the original onsets and offsets of the audio events.
Abstract（参考訳）: 本稿では,非剛性テキスト編集による音声編集について検討する。提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。最近リリースされた音声生成モデルであるAudio-LDMより優れた結果が得られることを定量的に定性的に示す。実験結果の質的検査により,提案手法による編集は,元の音声イベントのオンセットとオフセットを保持するという点で,入力音声に忠実であることが明らかとなった。

関連論文リスト

Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal [90.14887235360611]
SAVEBenchは、テキストとマスク条件を備えたペアオーディオヴィジュアルデータセットで、オブジェクト指向のソース・ツー・ターゲット学習を可能にする。 SAVEにはSchrodinger Bridgeが組み込まれており、ソースからターゲットのオーディオヴィジュアルミックスへのダイレクトトランスポートを学習する。評価の結果,提案したSAVEモデルは,残したコンテンツを保存しながら,音声・視覚コンテンツ中の対象オブジェクトを除去できることがわかった。
論文参考訳（メタデータ） (2025-12-14T23:19:15Z)
Coherent Audio-Visual Editing via Conditional Audio Generation Following Video Edits [33.1393328136321]
編集された映像と付随する音声とのコヒーレンスを高めるジョイントオーディオ・ビジュアル編集のための新しいパイプラインを提案する。提案手法はまず,対象映像を生成するために最先端のビデオ編集技術を適用し,視覚的変化に合わせて音声編集を行う。
論文参考訳（メタデータ） (2025-12-08T06:45:11Z)
AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control [10.55114688654566]
AV-Editは、ビデオ内の既存のオーディオトラックのきめ細かい編集を可能にする生成的サウンドエフェクト編集フレームワークである。提案手法は,マルチモーダル事前学習のためのコントラスト型音声-視覚マスキングオートエンコーダ (CAV-MAE-Edit) を特別に設計した。実験により,提案したAV-Editは,視覚コンテンツに基づいて高精度な修正を施した高品質なオーディオを生成することが示された。
論文参考訳（メタデータ） (2025-11-26T07:59:53Z)
SAO-Instruct: Free-form Audio Editing using Natural Language Instructions [34.39865893999257]
本稿では,任意の自然言語命令を用いて音声クリップを編集できるモデルSAO-Instructを紹介する。本モデルでは,実機内での音声クリップや未表示の編集指示をうまく一般化する。我々は,SAO-Instructが客観的な測定値の競合性能を達成し,主観的聴取実験において他の音声編集手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-10-26T18:57:16Z)
Object-AVEdit: An Object-level Audio-Visual Editing Model [79.62095842136115]
インバージョン再生パラダイムに基づくオブジェクトレベルの音声視覚編集を実現するtextbfObject-AVEditを提案する。編集中のオブジェクトレベルの制御性を実現するために,単語から音声へのオブジェクトの一致した音声生成モデルを開発した。より優れた構造情報保存とオブジェクトレベルの編集効果を実現するため,本アルゴリズムでは,倒立再生に最適化された編集アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-09-27T18:12:13Z)
RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文参考訳（メタデータ） (2025-09-17T14:13:40Z)
Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文参考訳（メタデータ） (2024-10-09T22:02:30Z)
Speech Editing -- a Summary [8.713498822221222]
本稿では,手動による波形編集を必要とせず,テキストの書き起こしによって音声を編集するテキストベースの音声編集手法について検討する。目的は、進行中の問題を強調し、音声編集におけるさらなる研究と革新を刺激することである。
論文参考訳（メタデータ） (2024-07-24T11:22:57Z)
Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文参考訳（メタデータ） (2024-06-18T00:02:15Z)
Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文参考訳（メタデータ） (2024-05-11T07:41:27Z)
AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。 AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文参考訳（メタデータ） (2024-04-25T12:55:58Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文参考訳（メタデータ） (2023-06-06T08:08:18Z)
AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models [40.13710449689338]
AUDITは遅延拡散モデルに基づく命令誘導音声編集モデルである。複数のオーディオ編集タスクに対する客観的および主観的メトリクスの両面で、最先端の結果を達成する。
論文参考訳（メタデータ） (2023-04-03T09:15:51Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Context-Aware Prosody Correction for Text-Based Speech Editing [28.459695630420832]
現在のシステムの主な欠点は、編集された地域の周りの韻律のミスマッチのために、編集された録音がしばしば不自然に聞こえることです。音声のより自然な音声編集のための新しい文脈認識手法を提案する。
論文参考訳（メタデータ） (2021-02-16T18:16:30Z)
Audio Captioning using Gated Recurrent Units [1.3960152426268766]
VGGishオーディオ埋め込みモデルは、音声キャプションタスクにおけるオーディオ埋め込みのユーザビリティを調べるために使用される。提案アーキテクチャは、音声とテキストの入力モダリティを別々に符号化し、復号ステージの前に合成する。実験結果から,提案したBiGRUを用いた深部モデルでは,術式よりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-05T12:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。