論文の概要: iQuery: Instruments as Queries for Audio-Visual Sound Separation
- arxiv url: http://arxiv.org/abs/2212.03814v1
- Date: Wed, 7 Dec 2022 17:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 17:18:15.396822
- Title: iQuery: Instruments as Queries for Audio-Visual Sound Separation
- Title(参考訳): iQuery:オーディオ・ビジュアル・サウンド分離のためのクエリーとしてのインスツルメンツ
- Authors: Jiaben Chen, Renrui Zhang, Dongze Lian, Jiaqi Yang, Ziyao Zeng, Jianbo
Shi
- Abstract要約: 現在の音声-視覚分離方式は、オーディオエンコーダ・デコーダネットワークがエンコーダボトルネックの視覚的符号化機能と融合した標準的なアーキテクチャ設計を共有している。
視覚-音分離タスクを再構成し、柔軟なクエリ拡張機構を備えたインスツルメンツ・アズ・クエリー(iQuery)を提案する。
当社のアプローチは, クロスモーダル整合性とクロスインストラクションの絡み合いを保証する。
- 参考スコア(独自算出の注目度): 21.327023637480284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current audio-visual separation methods share a standard architecture design
where an audio encoder-decoder network is fused with visual encoding features
at the encoder bottleneck. This design confounds the learning of multi-modal
feature encoding with robust sound decoding for audio separation. To generalize
to a new instrument: one must finetune the entire visual and audio network for
all musical instruments. We re-formulate visual-sound separation task and
propose Instrument as Query (iQuery) with a flexible query expansion mechanism.
Our approach ensures cross-modal consistency and cross-instrument
disentanglement. We utilize "visually named" queries to initiate the learning
of audio queries and use cross-modal attention to remove potential sound source
interference at the estimated waveforms. To generalize to a new instrument or
event class, drawing inspiration from the text-prompt design, we insert an
additional query as an audio prompt while freezing the attention mechanism.
Experimental results on three benchmarks demonstrate that our iQuery improves
audio-visual sound source separation performance.
- Abstract(参考訳): 現在の音声-視覚分離方式は、オーディオエンコーダ・デコーダネットワークがエンコーダボトルネックの視覚的符号化機能と融合した標準的なアーキテクチャ設計を共有する。
この設計は、音声分離のための頑健な音声復号化を伴うマルチモーダル特徴符号化の学習と相反する。
新しい楽器に一般化するには、すべての楽器の視覚と音声のネットワーク全体を微調整しなければならない。
視覚-音分離タスクを再構成し、柔軟なクエリ拡張機構を備えたインスツルメンツ・アズ・クエリー(iQuery)を提案する。
当社のアプローチは, クロスモーダル整合性とクロスインストラクションの絡み合いを保証する。
我々は「視覚的に命名された」クエリを用いて、音声クエリの学習を開始し、モーダルな注意を用いて推定波形における潜在的な音源干渉を取り除く。
テキストプロンプト設計からインスピレーションを得て,新しい楽器やイベントクラスに一般化するために,注意機構を凍結しながら音声プロンプトとして追加クエリを挿入する。
3つのベンチマークによる実験結果から,iqueryは音源分離性能が向上した。
関連論文リスト
- Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。