論文の概要: OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models
- arxiv url: http://arxiv.org/abs/2505.01448v1
- Date: Wed, 30 Apr 2025 01:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.114658
- Title: OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models
- Title(参考訳): OpenAVS:基礎モデルによる学習不要なオープン語彙音声分割
- Authors: Shengkai Chen, Yifang Yin, Jinming Cao, Shili Xiang, Zhenguang Liu, Roger Zimmermann,
- Abstract要約: オープンボキャブラリ・オーディオ・ビジュアル(AVS)のプロキシとしてテキストを用いて音声と視覚のモダリティを調整するための訓練不要な言語ベースのアプローチであるOpenAVSを提案する。
OpenAVSは,1)音声からテキストへのプロンプト生成,2)LLM誘導のプロンプト翻訳,3)テキストから視覚への音声合成オブジェクトセグメンテーションを通じてマスクを推論する。
既存の教師なし、ゼロショット、少数ショットのAVSメソッドをかなり上回り、mIoUとFスコアでそれぞれ9.4%と10.9%の絶対的なパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 28.56745509698125
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Audio-visual segmentation aims to separate sounding objects from videos by predicting pixel-level masks based on audio signals. Existing methods primarily concentrate on closed-set scenarios and direct audio-visual alignment and fusion, which limits their capability to generalize to new, unseen situations. In this paper, we propose OpenAVS, a novel training-free language-based approach that, for the first time, effectively aligns audio and visual modalities using text as a proxy for open-vocabulary Audio-Visual Segmentation (AVS). Equipped with multimedia foundation models, OpenAVS directly infers masks through 1) audio-to-text prompt generation, 2) LLM-guided prompt translation, and 3) text-to-visual sounding object segmentation. The objective of OpenAVS is to establish a simple yet flexible architecture that relies on the most appropriate foundation models by fully leveraging their capabilities to enable more effective knowledge transfer to the downstream AVS task. Moreover, we present a model-agnostic framework OpenAVS-ST that enables the integration of OpenAVS with any advanced supervised AVS model via pseudo-label based self-training. This approach enhances performance by effectively utilizing large-scale unlabeled data when available. Comprehensive experiments on three benchmark datasets demonstrate the superior performance of OpenAVS. It surpasses existing unsupervised, zero-shot, and few-shot AVS methods by a significant margin, achieving absolute performance gains of approximately 9.4% and 10.9% in mIoU and F-score, respectively, in challenging scenarios.
- Abstract(参考訳): 音声-視覚的セグメンテーションは、音声信号に基づいて画素レベルのマスクを予測することによって、映像から音声オブジェクトを分離することを目的としている。
既存の手法は、主にクローズドセットのシナリオと直接オーディオと視覚のアライメントと融合に焦点を合わせ、新しい、目に見えない状況に一般化する能力を制限する。
本稿では,オープン・ボキャブラリ・オーディオ・ビジュアル・セグメンテーション(AVS)のプロキシとしてテキストを用いて音声と視覚のモダリティを効果的に整合させる,新しい学習自由言語ベースのアプローチであるOpenAVSを提案する。
マルチメディアファウンデーションモデルを備えたOpenAVSはマスクを直接推論する
1)音声からテキストへのプロンプト生成
2)LPM誘導の即時翻訳,及び
3)テキストから視覚的発音オブジェクトのセグメンテーション。
OpenAVSの目的は、下流のAVSタスクへのより効果的な知識転送を可能にするために、その能力を完全に活用することで、最も適切な基盤モデルに依存する、シンプルで柔軟なアーキテクチャを確立することである。
さらに,モデルに依存しないOpenAVS-STにより,擬似ラベルに基づく自己学習により,任意の高度な教師付きAVSモデルとOpenAVSの統合を実現する。
このアプローチは、利用可能な大規模未ラベルデータを有効に活用することにより、パフォーマンスを向上させる。
3つのベンチマークデータセットに関する総合的な実験は、OpenAVSの優れた性能を示している。
既存の教師なし、ゼロショット、少数ショットのAVSメソッドをかなり上回り、挑戦的なシナリオでは、mIoUとFスコアでそれぞれ9.4%と10.9%の絶対的なパフォーマンス向上を達成した。
関連論文リスト
- Audio Visual Segmentation Through Text Embeddings [17.285669984798975]
我々は、事前訓練されたテキストプロンプテッドSAMのテキスト埋め込みスペースで音声特徴をブリッジするフレームワークであるtextbfAV2T-SAMを提案する。
提案手法は,事前訓練されたセグメンテーションモデルとモーダル間のセマンティックアライメントを効果的に利用することにより,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2025-02-22T21:15:44Z) - Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation [7.124066540020968]
AVSS (Audio-Visual Semantic) は映像中の音源の画素レベルのローカライゼーションを実現することを目的としており、AVSS (Audio-Visual Semantic) は音声視覚シーンの意味的理解を追求している。
従来の方法は、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分である。
textitStepping Stonesと呼ばれる2段階のトレーニング戦略を提案し、AVSSタスクを2つの単純なサブタスクに分解する。
論文 参考訳(メタデータ) (2024-07-16T15:08:30Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文 参考訳(メタデータ) (2023-05-18T14:52:45Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。