論文の概要: Recomposer: Event-roll-guided generative audio editing
- arxiv url: http://arxiv.org/abs/2509.05256v1
- Date: Fri, 05 Sep 2025 17:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.661632
- Title: Recomposer: Event-roll-guided generative audio editing
- Title(参考訳): Recomposer:イベントロール誘導生成オーディオ編集
- Authors: Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal,
- Abstract要約: 本稿では,複雑なシーン内で個々の音イベントを編集し,個々の音イベントを削除,挿入,拡張するシステムを提案する。
本稿では、合成(入力、所望出力)オーディオサンプル対に基づいて訓練された、SoundStream表現に取り組んでいるエンコーダ・デコーダ変換器を提案する。
- 参考スコア(独自算出の注目度): 20.394283728168805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing complex real-world sound scenes is difficult because individual sound sources overlap in time. Generative models can fill-in missing or corrupted details based on their strong prior understanding of the data domain. We present a system for editing individual sound events within complex scenes able to delete, insert, and enhance individual sound events based on textual edit descriptions (e.g., ``enhance Door'') and a graphical representation of the event timing derived from an ``event roll'' transcription. We present an encoder-decoder transformer working on SoundStream representations, trained on synthetic (input, desired output) audio example pairs formed by adding isolated sound events to dense, real-world backgrounds. Evaluation reveals the importance of each part of the edit descriptions -- action, class, timing. Our work demonstrates ``recomposition'' is an important and practical application.
- Abstract(参考訳): 複雑な実世界のサウンドシーンの編集は、個々の音源が時間的に重なるため困難である。
生成モデルは、データドメインに対する強い事前理解に基づいて、行方不明または破損した詳細を埋め込むことができる。
本稿では,複雑なシーン内で個々の音イベントを編集し,テキストによる編集記述(例: 'enhance Door'')に基づいて個々の音イベントを削除,挿入,拡張することが可能なシステムと,‘event roll'文字からのイベントタイミングのグラフィカルな表現を提案する。
本研究では,高密度な実世界の背景に孤立した音声イベントを付加することによって生成した合成(入力,所望の出力)オーディオサンプルペアに基づいて,SoundStream表現を訓練したエンコーダ・デコーダ変換器を提案する。
評価は、編集記述(アクション、クラス、タイミング)の各部分の重要性を明らかにする。
私たちの研究は、'recomposition'が重要かつ実践的な応用であることを示している。
関連論文リスト
- Bagpiper: Solving Open-Ended Audio Tasks via Rich Captions [84.73122243726775]
Bagpiperは8Bオーディオ基礎モデルで、リッチキャプションを通じて物理オーディオを解釈する。
微調整の間、Bagpiperはタスク固有の前処理なしで多様なタスクを解決するためにキャプション-thenプロセスワークフローを採用している。
我々の知る限りでは、Bagpiperは一般的な音声に対する統一的な理解生成を実現する最初の作品の一つである。
論文 参考訳(メタデータ) (2026-02-05T02:20:07Z) - Schrodinger Audio-Visual Editor: Object-Level Audiovisual Removal [90.14887235360611]
SAVEBenchは、テキストとマスク条件を備えたペアオーディオヴィジュアルデータセットで、オブジェクト指向のソース・ツー・ターゲット学習を可能にする。
SAVEにはSchrodinger Bridgeが組み込まれており、ソースからターゲットのオーディオヴィジュアルミックスへのダイレクトトランスポートを学習する。
評価の結果,提案したSAVEモデルは,残したコンテンツを保存しながら,音声・視覚コンテンツ中の対象オブジェクトを除去できることがわかった。
論文 参考訳(メタデータ) (2025-12-14T23:19:15Z) - AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control [10.55114688654566]
AV-Editは、ビデオ内の既存のオーディオトラックのきめ細かい編集を可能にする生成的サウンドエフェクト編集フレームワークである。
提案手法は,マルチモーダル事前学習のためのコントラスト型音声-視覚マスキングオートエンコーダ (CAV-MAE-Edit) を特別に設計した。
実験により,提案したAV-Editは,視覚コンテンツに基づいて高精度な修正を施した高品質なオーディオを生成することが示された。
論文 参考訳(メタデータ) (2025-11-26T07:59:53Z) - RFM-Editing: Rectified Flow Matching for Text-guided Audio Editing [21.479883699581308]
そこで本研究では,音声編集のための効率のよいフロー整合型拡散フレームワークを提案する。
実験の結果,補助的なキャプションやマスクを必要とせず,忠実なセマンティックアライメントを実現することができた。
論文 参考訳(メタデータ) (2025-09-17T14:13:40Z) - Audio-Guided Visual Editing with Complex Multi-Modal Prompts [5.694921736486254]
本稿では,複数のテキストと音声のプロンプトで複雑な編集タスクを,トレーニングを必要とせずに処理できる新しいビジュアル編集フレームワークを提案する。
トレーニング済みのマルチモーダルエンコーダと強力なゼロショット機能を活用し,多様なオーディオをビジュアル編集タスクに統合する。
本フレームワークは,テキストのみのアプローチが失敗する音声からの豊富な情報を組み込むことで,複雑な編集シナリオの処理に長けている。
論文 参考訳(メタデータ) (2025-08-28T03:00:30Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment [11.796771978828403]
ビデオから時間的コヒーレントかつ意味論的に制御可能な音響効果を生成する2段階生成フレームワークであるFolAIを紹介する。
その結果、我々のモデルは、時間的に視覚運動に整合し、意味的にユーザ意図と整合し、知覚的にリアルな音声を確実に生成することがわかった。
これらの知見は、FolAIがプロと対話的な環境でスケーラブルで高品質なフォーリー音声合成のための、制御可能でモジュラーなソリューションとしての可能性を強調している。
論文 参考訳(メタデータ) (2024-12-19T16:37:19Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文 参考訳(メタデータ) (2023-10-23T18:01:36Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。
我々は、オーディオのみの手法とオーディオ視覚的手法の両方において、データセット上で最先端の音声認識および検出モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。