論文の概要: Hear to Segment: Unmixing the Audio to Guide the Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.07223v1
- Date: Fri, 12 May 2023 03:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:18:16.714977
- Title: Hear to Segment: Unmixing the Audio to Guide the Semantic Segmentation
- Title(参考訳): hear to segment: セマンティクスのセグメンテーションを導くためにオーディオをアンミックスする
- Authors: Yuhang Ling, Yuxi Li, Zhenye Gan, Jiangning Zhang, Mingmin Chi, Yabiao
Wang
- Abstract要約: 本稿では,オーディオストリームと画像画素との微粒な対応性を確立するために,AVS (Audio-Visual) という新しいタスクに焦点をあてる。
本稿では,複雑な音声信号のアンミックスと類似音の識別を支援するAUS(Audio Unmixing and Semantic Network)を提案する。
私たちのAUSSは、単一ソースとマルチソースのサブセットの両方で新しい最先端技術を設定し、オーディオとヴィジュアリティのギャップを埋める上でのAUSSの有効性を実証しています。
- 参考スコア(独自算出の注目度): 15.667036713883071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on a recently proposed novel task called Audio-Visual
Segmentation (AVS), where the fine-grained correspondence between audio stream
and image pixels is required to be established. However, learning such
correspondence faces two key challenges: (1) audio signals inherently exhibit a
high degree of information density, as sounds produced by multiple objects are
entangled within the same audio stream; (2) the frequency of audio signals from
objects with the same category tends to be similar, which hampers the
distinction of target object and consequently leads to ambiguous segmentation
results. Toward this end, we propose an Audio Unmixing and Semantic
Segmentation Network (AUSS), which encourages unmixing complicated audio
signals and distinguishing similar sounds. Technically, our AUSS unmixs the
audio signals into a set of audio queries, and interacts them with visual
features by masked attention mechanisms. To encourage these audio queries to
capture distinctive features embedded within the audio, two self-supervised
losses are also introduced as additional supervision at both class and mask
levels. Extensive experimental results on the AVSBench benchmark show that our
AUSS sets a new state-of-the-art in both single-source and multi-source
subsets, demonstrating the effectiveness of our AUSS in bridging the gap
between audio and vision modalities.
- Abstract(参考訳): 本稿では,オーディオストリームと画像画素の微妙な対応性を確立するために,AVS (Audio-Visual Segmentation) という新しい課題に焦点をあてる。
しかし、そのような対応を学習することは、2つの重要な課題に直面している:(1)複数のオブジェクトが生成する音声が同じオーディオストリーム内で絡み合うように、本質的に高い情報密度を示す、(2)同じカテゴリのオブジェクトからの音声信号の頻度は似ている傾向にあり、対象オブジェクトの区別を阻害し、結果としてあいまいなセグメンテーション結果をもたらす。
この目的のために,複雑な音声信号のアンミックスと類似音の識別を促進するAUS(Audio Unmixing and Semantic Segmentation Network)を提案する。
技術的には、AUSSは音声信号を一連の音声クエリにアンミックスし、マスキングアテンション機構によって視覚的特徴と相互作用する。
これらの音声クエリーをオーディオ内に埋め込まれた特徴を捉えるよう奨励するため、クラスレベルとマスクレベルの追加監視として2つの自己監督的損失も導入されている。
AVSBenchベンチマークの大規模な実験結果から、AUSSは単一ソースとマルチソースのサブセットの両方に新しい最先端技術を設定し、オーディオとヴィジュアルのギャップを埋める上でのAUSSの有効性を実証した。
関連論文リスト
- Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。
我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。
提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文 参考訳(メタデータ) (2023-09-18T05:58:06Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。