Fugu-MT 論文翻訳(概要): Open-Vocabulary Audio-Visual Semantic Segmentation

論文の概要: Open-Vocabulary Audio-Visual Semantic Segmentation

arxiv url: http://arxiv.org/abs/2407.21721v1
Date: Wed, 31 Jul 2024 16:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 17:41:37.577302
Title: Open-Vocabulary Audio-Visual Semantic Segmentation
Title（参考訳）: Open-Vocabulary Audio-Visual Semantic Segmentation
Authors: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying,
Abstract要約: AVSSタスクをアノテートされたラベル空間を超えたオープンワールドシナリオに拡張する。 1)音声と視覚の融合を行い、全ての潜在的な聴覚オブジェクトを見つけるための普遍的な音源定位モジュールと,2)大規模事前学習型視覚言語モデルからの事前知識の助けを借りてカテゴリを予測するオープン語彙分類モジュールと,からなる,最初のオープン語彙型AVSSフレームワークであるOV-AVSSを提案する。
参考スコア（独自算出の注目度）: 12.330521982730836
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at https://github.com/ruohaoguo/ovavss.
Abstract（参考訳）: 音声-視覚的セマンティックセグメンテーション(AVSS)は、音響的手がかりのあるビデオ内の音質オブジェクトを分類・分類することを目的としている。しかし、ほとんどのアプローチはクローズセットの仮定に基づいており、トレーニングデータから事前定義されたカテゴリのみを識別し、実用的な応用において新しいカテゴリを検出する一般化能力に欠ける。本稿では,AVSSタスクをアノテートされたラベル空間を超えたオープンワールドシナリオに拡張するオープンボキャブラリ型音声視覚セマンティックセマンティックセマンティックセマンティクスを提案する。これは、トレーニング中に見たことも聴いたこともなかったものでさえ、すべてのカテゴリを認識する必要がある、より困難なタスクです。さらに、主に2つの部分から構成される最初のオープン語彙型AVSSフレームワークであるOV-AVSSを提案する。 1) 音声・視覚融合を行い、全ての潜在的な音像を特定できるユニバーサル音源定位モジュール 2) 大規模事前学習型視覚言語モデルからの事前知識の助けを借りてカテゴリを予測するオープン語彙分類モジュール。 AVSBench-semanticベンチマーク,すなわちAVSBench-OVに基づいて,ゼロショットトレーニングとテストサブセットを適切に評価する。広範囲な実験は、全てのカテゴリにおいて、我々のモデルの強いセグメンテーションとゼロショット一般化能力を示す。 AVSBench-OVデータセットでは、OV-AVSSは55.43% mIoU、新しいカテゴリでは29.14% mIoU、最先端のゼロショット法は41.88%/20.61%、オープン語彙法は10.2%/11.6%である。コードはhttps://github.com/ruohaoguo/ovavss.comで公開されている。

関連論文リスト

Bridging Audio and Vision: Zero-Shot Audiovisual Segmentation by Connecting Pretrained Models [13.63552417613795]
複数の事前学習モデルを活用することでタスク固有のトレーニングを不要にするゼロショットAVSフレームワークを提案する。提案手法は,音声,視覚,テキスト表現を統合し,AVS固有のアノテーションを使わずに正確な音源分割を可能にする。
論文参考訳（メタデータ） (2025-06-06T21:06:35Z)
OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models [28.56745509698125]
オープンボキャブラリ・オーディオ・ビジュアル(AVS)のプロキシとしてテキストを用いて音声と視覚のモダリティを調整するための訓練不要な言語ベースのアプローチであるOpenAVSを提案する。 OpenAVSは,1)音声からテキストへのプロンプト生成,2)LLM誘導のプロンプト翻訳,3)テキストから視覚への音声合成オブジェクトセグメンテーションを通じてマスクを推論する。既存の教師なし、ゼロショット、少数ショットのAVSメソッドをかなり上回り、mIoUとFスコアでそれぞれ9.4%と10.9%の絶対的なパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2025-04-30T01:52:10Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation [7.124066540020968]
AVSS (Audio-Visual Semantic) は映像中の音源の画素レベルのローカライゼーションを実現することを目的としており、AVSS (Audio-Visual Semantic) は音声視覚シーンの意味的理解を追求している。従来の方法は、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分である。 textitStepping Stonesと呼ばれる2段階のトレーニング戦略を提案し、AVSSタスクを2つの単純なサブタスクに分解する。
論文参考訳（メタデータ） (2024-07-16T15:08:30Z)
Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文参考訳（メタデータ） (2024-06-09T03:38:21Z)
Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文参考訳（メタデータ） (2023-09-13T05:05:47Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。 HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文参考訳（メタデータ） (2023-07-14T13:02:10Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)
Audio-Visual Scene Classification Using A Transfer Learning Based Joint Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文参考訳（メタデータ） (2022-04-25T03:37:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。