論文の概要: Audio-Visual Segmentation with Semantics
- arxiv url: http://arxiv.org/abs/2301.13190v1
- Date: Mon, 30 Jan 2023 18:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:10:22.479331
- Title: Audio-Visual Segmentation with Semantics
- Title(参考訳): セマンティクスを用いた視聴覚セグメンテーション
- Authors: Jinxing Zhou, Xuyang Shen, Jianyuan Wang, Jiayi Zhang, Weixuan Sun,
Jing Zhang, Stan Birchfield, Dan Guo, Lingpeng Kong, Meng Wang, Yiran Zhong
- Abstract要約: オーディオ・ビジュアル・セグメンテーション(AVS)と呼ばれる新しい問題を提案する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
AVSBench という,可聴ビデオ中のオブジェクトの音声に対する画素単位のアノテーションを提供する,最初の音声-視覚的セグメンテーションベンチマークを構築した。
- 参考スコア(独自算出の注目度): 45.5917563087477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new problem called audio-visual segmentation (AVS), in which the
goal is to output a pixel-level map of the object(s) that produce sound at the
time of the image frame. To facilitate this research, we construct the first
audio-visual segmentation benchmark, i.e., AVSBench, providing pixel-wise
annotations for sounding objects in audible videos. It contains three subsets:
AVSBench-object (Single-source subset, Multi-sources subset) and
AVSBench-semantic (Semantic-labels subset). Accordingly, three settings are
studied: 1) semi-supervised audio-visual segmentation with a single sound
source; 2) fully-supervised audio-visual segmentation with multiple sound
sources, and 3) fully-supervised audio-visual semantic segmentation. The first
two settings need to generate binary masks of sounding objects indicating
pixels corresponding to the audio, while the third setting further requires
generating semantic maps indicating the object category. To deal with these
problems, we propose a new baseline method that uses a temporal pixel-wise
audio-visual interaction module to inject audio semantics as guidance for the
visual segmentation process. We also design a regularization loss to encourage
audio-visual mapping during training. Quantitative and qualitative experiments
on AVSBench compare our approach to several existing methods for related tasks,
demonstrating that the proposed method is promising for building a bridge
between the audio and pixel-wise visual semantics. Code is available at
https://github.com/OpenNLPLab/AVSBench. Online benchmark is available at
http://www.avlbench.opennlplab.cn.
- Abstract(参考訳): 本稿では,画像フレームの時に音声を生成するオブジェクトのピクセルレベルマップを出力することを目的として,AVS(Audio-visual segmentation)と呼ばれる新しい問題を提案する。
そこで,本研究では,AVSBenchという音声・視覚のセグメンテーション・ベンチマークを初めて構築し,可聴ビデオ中のオブジェクトの発音にピクセル単位のアノテーションを提供する。
AVSBench-object (Single-source subset, Multi-sources subset) と AVSBench-semantic (Semantic-labels subset) の3つのサブセットを含んでいる。
そのため、3つの設定が研究される。
1) 単一音源による半教師付き音声視覚分割
2)複数音源による完全教師付き音声視覚分割
3)完全教師付き視聴覚セマンティクスセグメンテーション。
最初の2つの設定は、オーディオに対応するピクセルを示す音声オブジェクトのバイナリマスクを生成する必要があり、3番目の設定は、さらにオブジェクトカテゴリを示すセマンティックマップを生成する必要がある。
これらの問題に対処するために,音声セマンティクスを視覚セマンティクス処理のガイダンスとして導入するために,時間的画素単位の音声-視覚インタラクションモジュールを用いた新しいベースライン手法を提案する。
また、トレーニング中の音声視覚マッピングを促進するために正規化損失を設計する。
avsbenchにおける定量的・定性的実験は,提案手法が音声と画素方向の視覚意味論の橋渡しに有益であることを実証し,既存のタスクの手法と比較した。
コードはhttps://github.com/OpenNLPLab/AVSBenchで入手できる。
オンラインベンチマークはhttp://www.avlbench.opennlplab.cnで利用可能である。
関連論文リスト
- Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文 参考訳(メタデータ) (2024-07-15T17:45:20Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。
我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。
提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文 参考訳(メタデータ) (2023-09-18T05:58:06Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。