論文の概要: Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced
Auditory Experience
- arxiv url: http://arxiv.org/abs/2402.03710v1
- Date: Tue, 6 Feb 2024 05:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 16:32:20.762014
- Title: Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced
Auditory Experience
- Title(参考訳): listen, chat, and edit: テキストガイド付き音環境修正による聴覚体験の向上
- Authors: Xilin Jiang, Cong Han, Yinghao Aaron Li, and Nima Mesgarani
- Abstract要約: 『リスナー・チャット・編集』(LCE)は、ユーザが提供するテキストの指示に基づいて、各音源を混合して修正する。
ユーザはオープン語彙のテキストプロンプトを入力し、大きな言語モデルによって解釈され、セマンティックフィルタを生成する。
その後、システムは混合物をそのコンポーネントに分解し、セマンティックフィルタを適用し、それを所望の出力に再組み立てする。
- 参考スコア(独自算出の注目度): 20.044171147853895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In daily life, we encounter a variety of sounds, both desirable and
undesirable, with limited control over their presence and volume. Our work
introduces "Listen, Chat, and Edit" (LCE), a novel multimodal sound mixture
editor that modifies each sound source in a mixture based on user-provided text
instructions. LCE distinguishes itself with a user-friendly chat interface and
its unique ability to edit multiple sound sources simultaneously within a
mixture, without needing to separate them. Users input open-vocabulary text
prompts, which are interpreted by a large language model to create a semantic
filter for editing the sound mixture. The system then decomposes the mixture
into its components, applies the semantic filter, and reassembles it into the
desired output. We developed a 160-hour dataset with over 100k mixtures,
including speech and various audio sources, along with text prompts for diverse
editing tasks like extraction, removal, and volume control. Our experiments
demonstrate significant improvements in signal quality across all editing tasks
and robust performance in zero-shot scenarios with varying numbers and types of
sound sources.
- Abstract(参考訳): 日常生活では、望ましい音と望ましくない音の両方に遭遇し、その存在と容積を限定的に制御する。
提案する「listen, chat, and edit」(lce)は,ユーザが入力したテキスト命令に基づいて各音源をミキシングで修飾する,新しいマルチモーダル音声混合エディタである。
LCEはユーザフレンドリーなチャットインターフェースと、複数の音源をミキシング内で同時に編集するユニークな機能で、それを分離する必要がない。
ユーザーはオープン語彙のテキストプロンプトを入力し、大きな言語モデルで解釈され、音の混合を編集するためのセマンティックフィルタを作成する。
その後、システムは混合物をコンポーネントに分解し、セマンティックフィルタを適用し、それを所望の出力に再組み立てする。
音声と様々な音声ソースを含む10k以上の混合データと、抽出、削除、ボリューム制御といった様々な編集タスクのためのテキストプロンプトを備えた160時間データセットを開発した。
本実験は,全編集作業における信号品質の大幅な向上と,音源数や形態の異なるゼロショットシナリオにおける頑健な性能を示す。
関連論文リスト
- T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
視覚的音源定位は、ビデオ内の各音源の意味領域を特定する上で重要な課題となる。
既存の教師付きおよび弱教師付きソースローカライゼーション手法では,各音源対象の意味領域を正確に識別することが困難である。
テキストモダリティを3モーダル結合埋め込みモデル(例:AudioCLIP)を用いて中間的特徴ガイドとして組み込むことにより,マルチソース混合における意味的音声・視覚的ソース対応を解消する。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Audio Editing with Non-Rigid Text Prompts [27.293096429929754]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。
追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文 参考訳(メタデータ) (2023-10-19T16:09:44Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。