Fugu-MT 論文翻訳(概要): QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition

論文の概要: QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition

arxiv url: http://arxiv.org/abs/2310.00132v3
Date: Fri, 19 Apr 2024 15:23:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 20:16:45.864335
Title: QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition
Title（参考訳）: QDFormer:量子化に基づく意味分解を伴う複雑な環境におけるロバストな視覚的セグメンテーションを目指して
Authors: Xiang Li, Jinglu Wang, Xiaohao Xu, Xiulian Peng, Rita Singh, Yan Lu, Bhiksha Raj,
Abstract要約: マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
参考スコア（独自算出の注目度）: 47.103732403296654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audiovisual segmentation (AVS) is a challenging task that aims to segment visual objects in videos according to their associated acoustic cues. With multiple sound sources and background disturbances involved, establishing robust correspondences between audio and visual contents poses unique challenges due to (1) complex entanglement across sound sources and (2) frequent changes in the occurrence of distinct sound events. Assuming sound events occur independently, the multi-source semantic space can be represented as the Cartesian product of single-source sub-spaces. We are motivated to decompose the multi-source audio semantics into single-source semantics for more effective interactions with visual content. We propose a semantic decomposition method based on product quantization, where the multi-source semantics can be decomposed and represented by several disentangled and noise-suppressed single-source semantics. Furthermore, we introduce a global-to-local quantization mechanism, which distills knowledge from stable global (clip-level) features into local (frame-level) ones, to handle frequent changes in audio semantics. Extensive experiments demonstrate that our semantically decomposed audio representation significantly improves AVS performance, e.g., +21.2% mIoU on the challenging AVS-Semantic benchmark with ResNet50 backbone. https://github.com/lxa9867/QSD.
Abstract（参考訳）: 聴覚的セグメンテーション(AVS)は,映像中の視覚的物体を関連する音響的手がかりに従って分割することを目的とした課題である。複数の音源と背景障害を伴い、音声と視覚コンテンツとの堅牢な対応を確立することは、(1)音源間の複雑な絡み合い、(2)異なる音事象の発生の頻繁な変化により、独特な課題をもたらす。音事象が独立に起こると仮定すると、マルチソースの意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。視覚コンテンツとのより効果的なインタラクションのために,マルチソース音声セマンティクスを単一ソースセマンティクスに分解する。製品量子化に基づくセマンティック分解手法を提案し,マルチソースセマンティクスを分解し,複数の不整合およびノイズ抑圧された単一ソースセマンティクスで表現する。さらに,安定なグローバルな(クリップレベル)特徴から局所的な(フレームレベル)特徴へ知識を抽出し,音声意味論の頻繁な変化に対処するグローバル・ローカルな量子化機構を導入する。大規模な実験により、我々の意味的に分解されたオーディオ表現は、ResNet50のバックボーンによる挑戦的なAVS-Semanticベンチマークにおいて、AVSのパフォーマンスを著しく改善することが示された。 https://github.com/lxa9867/QSD

関連論文リスト

DDAVS: Disentangled Audio Semantics and Delayed Bidirectional Alignment for Audio-Visual Segmentation [33.30812530784719]
Audio-Visualは、聴覚情報と視覚情報を共同で活用することで、オブジェクトをピクセルレベルでローカライズすることを目的としている。既存の手法は、しばしばマルチソースの絡み合いとオーディオ-視覚的ミスアライメントに悩まされる。本稿では,Distangled Audio SemanticsとDelayed Bidirectional Alignmentフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-23T07:21:21Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Frequency-Domain Decomposition and Recomposition for Robust Audio-Visual Segmentation [60.9960601057956]
本稿では2つの主要なモジュールからなる周波数対応オーディオ・ビジュアルコンポスタ(FAVS)フレームワークを紹介する。 FAVSフレームワークは、3つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-23T12:33:48Z)
SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文参考訳（メタデータ） (2025-08-01T17:05:04Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。 Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文参考訳（メタデータ） (2025-05-27T11:00:38Z)
Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics [26.399212357764576]
本稿では,動的導出・除去(DDESeg: Dynamic Derivation and Elimination)を提案する。 DDESegは、特徴混乱を軽減するため、混合音声信号の意味内容を再構成する。マッチングの難しさを軽減するために,識別的特徴学習モジュールを導入する。
論文参考訳（メタデータ） (2025-03-17T05:38:05Z)
Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。 MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-04T08:37:47Z)
Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文参考訳（メタデータ） (2024-06-09T03:38:21Z)
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文参考訳（メタデータ） (2024-02-04T03:02:35Z)
Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文参考訳（メタデータ） (2023-10-12T13:09:40Z)
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文参考訳（メタデータ） (2023-09-13T05:05:47Z)
Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文参考訳（メタデータ） (2023-08-16T11:20:23Z)
Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation [32.68710772281511]
本稿では,映像中の音源をローカライズするために,音声・視覚表現学習のための自己教師型フレームワークを提案する。我々のモデルは、Flickr-SoundNet と VGG-Sound という2つの音像定位ベンチマークにおいて、従来の手法よりも優れていた。このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。
論文参考訳（メタデータ） (2022-06-26T03:00:02Z)
Dual Normalization Multitasking for Audio-Visual Sounding Object Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-06-01T02:02:52Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。