論文の概要: Rethinking Audiovisual Segmentation with Semantic Quantization and
Decomposition
- arxiv url: http://arxiv.org/abs/2310.00132v1
- Date: Fri, 29 Sep 2023 20:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:20:36.348496
- Title: Rethinking Audiovisual Segmentation with Semantic Quantization and
Decomposition
- Title(参考訳): セマンティック量子化と分解による視聴覚セグメンテーションの再考
- Authors: Xiang Li, Jinglu Wang, Xiaohao Xu, Xiulian Peng, Rita Singh, Yan Lu,
Bhiksha Raj
- Abstract要約: マルチソース意味空間は、単一ソース部分空間のカルテシアン積と見なすことができる。
本研究では,安定なグローバルな(クリップレベル)特徴から局所的な(フレームレベル)特徴へ知識を抽出し,音声セマンティクスの定常的なシフトを処理するグローバル・ローカルな量子化機構を提案する。
- 参考スコア(独自算出の注目度): 49.465783009753885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audiovisual segmentation (AVS) is a challenging task that aims to segment
visual objects in videos based on their associated acoustic cues. With multiple
sound sources involved, establishing robust correspondences between audio and
visual contents poses unique challenges due to its (1) intricate entanglement
across sound sources and (2) frequent shift among sound events. Assuming sound
events occur independently, the multi-source semantic space (which encompasses
all possible semantic categories) can be viewed as the Cartesian product of
single-source sub-spaces. This motivates us to decompose the multi-source audio
semantics into single-source semantics, allowing for more effective interaction
with visual content. Specifically, we propose a semantic decomposition method
based on product quantization, where the multi-source semantics can be
decomposed and represented by several quantized single-source semantics.
Furthermore, we introduce a global-to-local quantization mechanism that
distills knowledge from stable global (clip-level) features into local
(frame-level) ones to handle the constant shift of audio semantics. Extensive
experiments demonstrate that semantically quantized and decomposed audio
representation significantly improves AVS performance, e.g., +21.2% mIoU on the
most challenging AVS-Semantic benchmark.
- Abstract(参考訳): 聴覚的セグメンテーション(AVS)は、視覚的オブジェクトを関連性のある音響的手がかりに基づいてビデオに分割することを目的とした課題である。
複数の音源が関与し、音声と視覚コンテンツ間の堅牢な対応を確立することは、(1)音源間の複雑な絡み合い、(2)音声イベント間の頻繁なシフトにより、ユニークな課題となる。
音事象が独立に起こると仮定すると、マルチソース意味空間(全ての可能な意味圏を含む)は、単一ソース部分空間のカルテシアン積とみなすことができる。
これにより、マルチソース音声セマンティクスを単一ソースセマンティクスに分解し、視覚コンテンツとのより効果的な相互作用を可能にする。
具体的には、製品量子化に基づく意味分解手法を提案し、複数の量化単一ソースセマンティクスによってマルチソースセマンティクスを分解し、表現することができる。
さらに,安定なグローバル(クリップレベル)機能からローカル(フレームレベル)機能への知識を抽出し,音声セマンティクスの定常的な変化を処理するグローバルからローカルへの量子化機構を導入する。
大規模な実験により、意味論的に定量化され分解されたオーディオ表現は、最も困難なAVS-Semanticベンチマークにおける+21.2% mIoUなどのAVSのパフォーマンスを大幅に改善することが示された。
関連論文リスト
- Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。
MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-04T08:37:47Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Exploiting Transformation Invariance and Equivariance for
Self-supervised Sound Localisation [32.68710772281511]
本稿では,映像中の音源をローカライズするために,音声・視覚表現学習のための自己教師型フレームワークを提案する。
我々のモデルは、Flickr-SoundNet と VGG-Sound という2つの音像定位ベンチマークにおいて、従来の手法よりも優れていた。
このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。
論文 参考訳(メタデータ) (2022-06-26T03:00:02Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。