論文の概要: Recomposer: Event-roll-guided generative audio editing
- arxiv url: http://arxiv.org/abs/2509.05256v1
- Date: Fri, 05 Sep 2025 17:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.661632
- Title: Recomposer: Event-roll-guided generative audio editing
- Title(参考訳): Recomposer:イベントロール誘導生成オーディオ編集
- Authors: Daniel P. W. Ellis, Eduardo Fonseca, Ron J. Weiss, Kevin Wilson, Scott Wisdom, Hakan Erdogan, John R. Hershey, Aren Jansen, R. Channing Moore, Manoj Plakal,
- Abstract要約: 本稿では,複雑なシーン内で個々の音イベントを編集し,個々の音イベントを削除,挿入,拡張するシステムを提案する。
本稿では、合成(入力、所望出力)オーディオサンプル対に基づいて訓練された、SoundStream表現に取り組んでいるエンコーダ・デコーダ変換器を提案する。
- 参考スコア(独自算出の注目度): 20.394283728168805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing complex real-world sound scenes is difficult because individual sound sources overlap in time. Generative models can fill-in missing or corrupted details based on their strong prior understanding of the data domain. We present a system for editing individual sound events within complex scenes able to delete, insert, and enhance individual sound events based on textual edit descriptions (e.g., ``enhance Door'') and a graphical representation of the event timing derived from an ``event roll'' transcription. We present an encoder-decoder transformer working on SoundStream representations, trained on synthetic (input, desired output) audio example pairs formed by adding isolated sound events to dense, real-world backgrounds. Evaluation reveals the importance of each part of the edit descriptions -- action, class, timing. Our work demonstrates ``recomposition'' is an important and practical application.
- Abstract(参考訳): 複雑な実世界のサウンドシーンの編集は、個々の音源が時間的に重なるため困難である。
生成モデルは、データドメインに対する強い事前理解に基づいて、行方不明または破損した詳細を埋め込むことができる。
本稿では,複雑なシーン内で個々の音イベントを編集し,テキストによる編集記述(例: 'enhance Door'')に基づいて個々の音イベントを削除,挿入,拡張することが可能なシステムと,‘event roll'文字からのイベントタイミングのグラフィカルな表現を提案する。
本研究では,高密度な実世界の背景に孤立した音声イベントを付加することによって生成した合成(入力,所望の出力)オーディオサンプルペアに基づいて,SoundStream表現を訓練したエンコーダ・デコーダ変換器を提案する。
評価は、編集記述(アクション、クラス、タイミング)の各部分の重要性を明らかにする。
私たちの研究は、'recomposition'が重要かつ実践的な応用であることを示している。
関連論文リスト
- Audio-Guided Visual Editing with Complex Multi-Modal Prompts [5.694921736486254]
本稿では,複数のテキストと音声のプロンプトで複雑な編集タスクを,トレーニングを必要とせずに処理できる新しいビジュアル編集フレームワークを提案する。
トレーニング済みのマルチモーダルエンコーダと強力なゼロショット機能を活用し,多様なオーディオをビジュアル編集タスクに統合する。
本フレームワークは,テキストのみのアプローチが失敗する音声からの豊富な情報を組み込むことで,複雑な編集シナリオの処理に長けている。
論文 参考訳(メタデータ) (2025-08-28T03:00:30Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment [11.796771978828403]
ビデオから時間的コヒーレントかつ意味論的に制御可能な音響効果を生成する2段階生成フレームワークであるFolAIを紹介する。
その結果、我々のモデルは、時間的に視覚運動に整合し、意味的にユーザ意図と整合し、知覚的にリアルな音声を確実に生成することがわかった。
これらの知見は、FolAIがプロと対話的な環境でスケーラブルで高品質なフォーリー音声合成のための、制御可能でモジュラーなソリューションとしての可能性を強調している。
論文 参考訳(メタデータ) (2024-12-19T16:37:19Z) - Prompt-guided Precise Audio Editing with Diffusion Models [36.29823730882074]
PPAEは拡散モデルの汎用モジュールとして機能し、正確な音声編集を可能にする。
拡散モデルの相互アテンションマップを利用して、正確な局所的な編集を容易にし、階層的な局所的なパイプラインを用いてよりスムーズな編集プロセスを実現する。
論文 参考訳(メタデータ) (2024-05-11T07:41:27Z) - SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis [9.118448725265669]
音を設計する際に最も時間がかかるステップの1つは、音声とビデオの同期です。
ビデオゲームやアニメーションでは、参照音声は存在せず、ビデオからのイベントタイミングのマニュアルアノテーションを必要とする。
そこで本研究では,ビデオから繰り返し動作のオンセットを抽出し,新たな音効果音響トラックを生成するために訓練された拡散モデルの条件付けに用いるシステムを提案する。
論文 参考訳(メタデータ) (2023-10-23T18:01:36Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
EPIC-SOUNDSには78.4kの分類された音声イベントとアクションがあり、44のクラスと39.2kの非分類セグメントに分散している。
我々は、オーディオのみの手法とオーディオ視覚的手法の両方において、データセット上で最先端の音声認識および検出モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。