Fugu-MT 論文翻訳(概要): Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced Auditory Experience

論文の概要: Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced Auditory Experience

arxiv url: http://arxiv.org/abs/2402.03710v1
Date: Tue, 6 Feb 2024 05:05:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 16:32:20.762014
Title: Listen, Chat, and Edit: Text-Guided Soundscape Modification for Enhanced Auditory Experience
Title（参考訳）: listen, chat, and edit: テキストガイド付き音環境修正による聴覚体験の向上
Authors: Xilin Jiang, Cong Han, Yinghao Aaron Li, and Nima Mesgarani
Abstract要約: 『リスナー・チャット・編集』(LCE)は、ユーザが提供するテキストの指示に基づいて、各音源を混合して修正する。ユーザはオープン語彙のテキストプロンプトを入力し、大きな言語モデルによって解釈され、セマンティックフィルタを生成する。その後、システムは混合物をそのコンポーネントに分解し、セマンティックフィルタを適用し、それを所望の出力に再組み立てする。
参考スコア（独自算出の注目度）: 20.044171147853895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In daily life, we encounter a variety of sounds, both desirable and undesirable, with limited control over their presence and volume. Our work introduces "Listen, Chat, and Edit" (LCE), a novel multimodal sound mixture editor that modifies each sound source in a mixture based on user-provided text instructions. LCE distinguishes itself with a user-friendly chat interface and its unique ability to edit multiple sound sources simultaneously within a mixture, without needing to separate them. Users input open-vocabulary text prompts, which are interpreted by a large language model to create a semantic filter for editing the sound mixture. The system then decomposes the mixture into its components, applies the semantic filter, and reassembles it into the desired output. We developed a 160-hour dataset with over 100k mixtures, including speech and various audio sources, along with text prompts for diverse editing tasks like extraction, removal, and volume control. Our experiments demonstrate significant improvements in signal quality across all editing tasks and robust performance in zero-shot scenarios with varying numbers and types of sound sources.
Abstract（参考訳）: 日常生活では、望ましい音と望ましくない音の両方に遭遇し、その存在と容積を限定的に制御する。提案する「listen, chat, and edit」(lce)は,ユーザが入力したテキスト命令に基づいて各音源をミキシングで修飾する,新しいマルチモーダル音声混合エディタである。 LCEはユーザフレンドリーなチャットインターフェースと、複数の音源をミキシング内で同時に編集するユニークな機能で、それを分離する必要がない。ユーザーはオープン語彙のテキストプロンプトを入力し、大きな言語モデルで解釈され、音の混合を編集するためのセマンティックフィルタを作成する。その後、システムは混合物をコンポーネントに分解し、セマンティックフィルタを適用し、それを所望の出力に再組み立てする。音声と様々な音声ソースを含む10k以上の混合データと、抽出、削除、ボリューム制御といった様々な編集タスクのためのテキストプロンプトを備えた160時間データセットを開発した。本実験は,全編集作業における信号品質の大幅な向上と,音源数や形態の異なるゼロショットシナリオにおける頑健な性能を示す。

関連論文リスト

Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文参考訳（メタデータ） (2025-04-25T15:31:46Z)
Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文参考訳（メタデータ） (2025-03-24T16:56:04Z)
Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-01-27T16:13:50Z)
OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文参考訳（メタデータ） (2024-10-28T17:58:15Z)
Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文参考訳（メタデータ） (2024-10-09T22:02:30Z)
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation [9.453883041423468]
我々は,大規模言語モデル(LLM)を利用して自動音声分離を行う新しいフレームワークであるOpenSepを提案する。 OpenSepはテキストインバージョンを使用して、市販のオーディオキャプションモデルとオーディオミックスからキャプションを生成し、現在ある音源を効果的に解析する。その後、数発のLCMを使用して、パースされたソースの詳細なオーディオ特性を抽出し、目に見えない混合物の分離を容易にする。
論文参考訳（メタデータ） (2024-09-28T06:59:52Z)
Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。 MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-04T08:37:47Z)
T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。 MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文参考訳（メタデータ） (2024-04-02T09:07:05Z)
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。 Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文参考訳（メタデータ） (2023-11-14T05:34:50Z)
Audio Editing with Non-Rigid Text Prompts [24.008609489049206]
提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。
論文参考訳（メタデータ） (2023-10-19T16:09:44Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。 WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。 We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文参考訳（メタデータ） (2023-07-26T17:54:04Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。 LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文参考訳（メタデータ） (2022-03-28T23:47:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。