Fugu-MT 論文翻訳(概要): Text-Queried Audio Source Separation via Hierarchical Modeling

論文の概要: Text-Queried Audio Source Separation via Hierarchical Modeling

arxiv url: http://arxiv.org/abs/2505.21025v1
Date: Tue, 27 May 2025 11:00:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.594146
Title: Text-Queried Audio Source Separation via Hierarchical Modeling
Title（参考訳）: 階層的モデリングによるテキストクェリ音源分離
Authors: Xinlei Yin, Xiulian Peng, Xue Jiang, Zhiwei Xiong, Yan Lu,
Abstract要約: 本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。 Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
参考スコア（独自算出の注目度）: 53.94434504259829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Target audio source separation with natural language queries presents a promising paradigm for extracting arbitrary audio events through arbitrary text descriptions. Existing methods mainly face two challenges, the difficulty in jointly modeling acoustic-textual alignment and semantic-aware separation within a blindly-learned single-stage architecture, and the reliance on large-scale accurately-labeled training data to compensate for inefficient cross-modal learning and separation. To address these challenges, we propose a hierarchical decomposition framework, HSM-TSS, that decouples the task into global-local semantic-guided feature separation and structure-preserving acoustic reconstruction. Our approach introduces a dual-stage mechanism for semantic separation, operating on distinct global and local semantic feature spaces. We first perform global-semantic separation through a global semantic feature space aligned with text queries. A Q-Audio architecture is employed to align audio and text modalities, serving as pretrained global-semantic encoders. Conditioned on the predicted global feature, we then perform the second-stage local-semantic separation on AudioMAE features that preserve time-frequency structures, followed by acoustic reconstruction. We also propose an instruction processing pipeline to parse arbitrary text queries into structured operations, extraction or removal, coupled with audio descriptions, enabling flexible sound manipulation. Our method achieves state-of-the-art separation performance with data-efficient training while maintaining superior semantic consistency with queries in complex auditory scenes.
Abstract（参考訳）: 自然言語クエリによる音声ソースの分離を目標とすると、任意のテキスト記述を通じて任意の音声イベントを抽出する、有望なパラダイムが提示される。既存の手法は主に2つの課題に直面する: 盲目的に学習された単一ステージアーキテクチャにおいて、音-テクストのアライメントと意味-認識の分離を共同でモデル化することの難しさと、非効率なクロスモーダル学習と分離を補うために、大規模に正確にラベル付けされたトレーニングデータに依存すること。これらの課題に対処するため,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。提案手法では,グローバルな特徴空間と局所的な特徴空間を区別した,意味分離のための2段階機構を導入する。まず、テキストクエリに整合したグローバルなセマンティックな特徴空間を通して、グローバルなセマンティックな分離を行う。 Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。予測されたグローバルな特徴に基づいて,時間周波数構造を保存し,音響的再構成を行う第2段階のAudioMAE特徴を局所的に分離する。また、任意のテキストクエリを構造化された操作、抽出、削除にパースし、音声記述と組み合わせて柔軟な音声操作を可能にする命令処理パイプラインを提案する。本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。

関連論文リスト

Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics [26.399212357764576]
本稿では,動的導出・除去(DDESeg: Dynamic Derivation and Elimination)を提案する。 DDESegは、特徴混乱を軽減するため、混合音声信号の意味内容を再構成する。マッチングの難しさを軽減するために,識別的特徴学習モジュールを導入する。
論文参考訳（メタデータ） (2025-03-17T05:38:05Z)
SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文参考訳（メタデータ） (2025-01-26T15:04:02Z)
QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-09-29T20:48:44Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文参考訳（メタデータ） (2022-04-04T04:50:32Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Pretrained Semantic Speech Embeddings for End-to-End Spoken Language Understanding via Cross-Modal Teacher-Student Learning [31.7865837105092]
本研究では,事前学習した文脈埋め込みによる音響特性の処理を可能にする新しい学習手法を提案する。我々は、エンドツーエンドの音声言語理解システムを構築するために、事前訓練された音声認識システムのエンコーダで拡張する。
論文参考訳（メタデータ） (2020-07-03T17:43:12Z)
Unsupervised Cross-Modal Audio Representation Learning from Unstructured Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。 3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文参考訳（メタデータ） (2020-03-27T07:37:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。