Fugu-MT 論文翻訳(概要): Leveraging Foundation models for Unsupervised Audio-Visual Segmentation

論文の概要: Leveraging Foundation models for Unsupervised Audio-Visual Segmentation

arxiv url: http://arxiv.org/abs/2309.06728v1
Date: Wed, 13 Sep 2023 05:05:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-14 15:21:04.055298
Title: Leveraging Foundation models for Unsupervised Audio-Visual Segmentation
Title（参考訳）: 教師なし視聴覚セグメンテーションのための基礎モデル活用
Authors: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Xiatian Zhu
Abstract要約: AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
参考スコア（独自算出の注目度）: 49.94366155560371
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-Visual Segmentation (AVS) aims to precisely outline audible objects in a visual scene at the pixel level. Existing AVS methods require fine-grained annotations of audio-mask pairs in supervised learning fashion. This limits their scalability since it is time consuming and tedious to acquire such cross-modality pixel level labels. To overcome this obstacle, in this work we introduce unsupervised audio-visual segmentation with no need for task-specific data annotations and model training. For tackling this newly proposed problem, we formulate a novel Cross-Modality Semantic Filtering (CMSF) approach to accurately associate the underlying audio-mask pairs by leveraging the off-the-shelf multi-modal foundation models (e.g., detection [1], open-world segmentation [2] and multi-modal alignment [3]). Guiding the proposal generation by either audio or visual cues, we design two training-free variants: AT-GDINO-SAM and OWOD-BIND. Extensive experiments on the AVS-Bench dataset show that our unsupervised approach can perform well in comparison to prior art supervised counterparts across complex scenarios with multiple auditory objects. Particularly, in situations where existing supervised AVS methods struggle with overlapping foreground objects, our models still excel in accurately segmenting overlapped auditory objects. Our code will be publicly released.
Abstract（参考訳）: audio-visual segmentation (avs) は、ピクセルレベルで視覚シーン内の可聴物体を正確にアウトラインすることを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。このようなクロスモダリティなピクセルレベルラベルを取得するのに時間がかかるため、スケーラビリティが制限される。この課題を克服するため,本研究ではタスク固有のデータアノテーションやモデルトレーニングを必要とせず,教師なしの視聴覚セグメンテーションを導入する。そこで本研究では,本研究で提案するマルチモーダル基礎モデル(検出 [1],オープンワールドセグメンテーション [2],マルチモーダルアライメント [3] など)を用いて,基礎となる音声マスクペアを正確に関連付けるための新しいクロスモーダリティ意味フィルタリング(cmsf)手法を提案する。音声と視覚の両方による提案生成を指導し、AT-GDINO-SAMとOWOD-BINDの2つのトレーニング不要な派生案を設計する。 avs-benchデータセットに関する広範囲な実験により、複数の聴覚対象を持つ複雑なシナリオを横断する先行技術に比べて、教師なしアプローチが良好に機能することが示された。特に既存のavs法が重なり合う前景の物体に支障をきたす状況では,重なり合った聴覚物体を正確に分割するモデルが優れている。私たちのコードは公開されます。

関連論文リスト

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-30T08:40:36Z)
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models [28.56745509698125]
オープンボキャブラリ・オーディオ・ビジュアル(AVS)のプロキシとしてテキストを用いて音声と視覚のモダリティを調整するための訓練不要な言語ベースのアプローチであるOpenAVSを提案する。 OpenAVSは,1)音声からテキストへのプロンプト生成,2)LLM誘導のプロンプト翻訳,3)テキストから視覚への音声合成オブジェクトセグメンテーションを通じてマスクを推論する。既存の教師なし、ゼロショット、少数ショットのAVSメソッドをかなり上回り、mIoUとFスコアでそれぞれ9.4%と10.9%の絶対的なパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2025-04-30T01:52:10Z)
Audio Visual Segmentation Through Text Embeddings [17.285669984798975]
我々は、事前訓練されたテキストプロンプテッドSAMのテキスト埋め込みスペースで音声特徴をブリッジするフレームワークであるtextbfAV2T-SAMを提案する。提案手法は,事前訓練されたセグメンテーションモデルとモーダル間のセマンティックアライメントを効果的に利用することにより,既存の手法よりも優れている。
論文参考訳（メタデータ） (2025-02-22T21:15:44Z)
AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文参考訳（メタデータ） (2025-01-14T03:20:20Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Unsupervised Audio-Visual Segmentation with Modality Alignment [42.613786372067814]
Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
論文参考訳（メタデータ） (2024-03-21T07:56:09Z)
Weakly-Supervised Audio-Visual Segmentation [44.632423828359315]
Weakly-Supervised Audio-Visual framework,すなわちWS-AVSを提案する。 AVSBenchの実験は、単一ソースおよびマルチソースシナリオの弱い教師付きオーディオ視覚セグメント化におけるWS-AVSの有効性を実証している。
論文参考訳（メタデータ） (2023-11-25T17:18:35Z)
Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文参考訳（メタデータ） (2023-08-16T11:20:23Z)
Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文参考訳（メタデータ） (2023-05-18T14:52:45Z)
Multi-Granularity Denoising and Bidirectional Alignment for Weakly Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。 MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文参考訳（メタデータ） (2023-05-09T03:33:43Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文参考訳（メタデータ） (2023-03-14T17:58:34Z)
DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。 Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文参考訳（メタデータ） (2023-03-11T05:23:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。