論文の概要: Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced
Auditory Experience
- arxiv url: http://arxiv.org/abs/2402.03710v1
- Date: Tue, 6 Feb 2024 05:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:32:20.762014
- Title: Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced
Auditory Experience
- Title(参考訳): listen, chat, and edit: テキストガイド付き音環境修正による聴覚体験の向上
- Authors: Xilin Jiang, Cong Han, Yinghao Aaron Li, and Nima Mesgarani
- Abstract要約: 『リスナー・チャット・編集』(LCE)は、ユーザが提供するテキストの指示に基づいて、各音源を混合して修正する。
ユーザはオープン語彙のテキストプロンプトを入力し、大きな言語モデルによって解釈され、セマンティックフィルタを生成する。
その後、システムは混合物をそのコンポーネントに分解し、セマンティックフィルタを適用し、それを所望の出力に再組み立てする。
- 参考スコア(独自算出の注目度): 20.044171147853895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In daily life, we encounter a variety of sounds, both desirable and
undesirable, with limited control over their presence and volume. Our work
introduces "Listen, Chat, and Edit" (LCE), a novel multimodal sound mixture
editor that modifies each sound source in a mixture based on user-provided text
instructions. LCE distinguishes itself with a user-friendly chat interface and
its unique ability to edit multiple sound sources simultaneously within a
mixture, without needing to separate them. Users input open-vocabulary text
prompts, which are interpreted by a large language model to create a semantic
filter for editing the sound mixture. The system then decomposes the mixture
into its components, applies the semantic filter, and reassembles it into the
desired output. We developed a 160-hour dataset with over 100k mixtures,
including speech and various audio sources, along with text prompts for diverse
editing tasks like extraction, removal, and volume control. Our experiments
demonstrate significant improvements in signal quality across all editing tasks
and robust performance in zero-shot scenarios with varying numbers and types of
sound sources.
- Abstract(参考訳): 日常生活では、望ましい音と望ましくない音の両方に遭遇し、その存在と容積を限定的に制御する。
提案する「listen, chat, and edit」(lce)は,ユーザが入力したテキスト命令に基づいて各音源をミキシングで修飾する,新しいマルチモーダル音声混合エディタである。
LCEはユーザフレンドリーなチャットインターフェースと、複数の音源をミキシング内で同時に編集するユニークな機能で、それを分離する必要がない。
ユーザーはオープン語彙のテキストプロンプトを入力し、大きな言語モデルで解釈され、音の混合を編集するためのセマンティックフィルタを作成する。
その後、システムは混合物をコンポーネントに分解し、セマンティックフィルタを適用し、それを所望の出力に再組み立てする。
音声と様々な音声ソースを含む10k以上の混合データと、抽出、削除、ボリューム制御といった様々な編集タスクのためのテキストプロンプトを備えた160時間データセットを開発した。
本実験は,全編集作業における信号品質の大幅な向上と,音源数や形態の異なるゼロショットシナリオにおける頑健な性能を示す。
関連論文リスト
- OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。
トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。
我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文 参考訳(メタデータ) (2024-10-28T17:58:15Z) - Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation [9.453883041423468]
我々は,大規模言語モデル(LLM)を利用して自動音声分離を行う新しいフレームワークであるOpenSepを提案する。
OpenSepはテキストインバージョンを使用して、市販のオーディオキャプションモデルとオーディオミックスからキャプションを生成し、現在ある音源を効果的に解析する。
その後、数発のLCMを使用して、パースされたソースの詳細なオーディオ特性を抽出し、目に見えない混合物の分離を容易にする。
論文 参考訳(メタデータ) (2024-09-28T06:59:52Z) - T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。