論文の概要: Audio-visual segmentation, sound localization, semantic-aware sounding
objects localization
- arxiv url: http://arxiv.org/abs/2307.16620v1
- Date: Mon, 31 Jul 2023 12:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:43:03.618232
- Title: Audio-visual segmentation, sound localization, semantic-aware sounding
objects localization
- Title(参考訳): 音声-視覚的セグメンテーション、音像定位、意味認識音像定位
- Authors: Chen Liu, Peike Li, Xingqun Qi, Hu Zhang, Lincheng Li, Dadong Wang,
Xin Yu
- Abstract要約: 本稿では,データセットバイアスを克服するために,音声-視覚的インスタンス認識セグメンテーション手法を提案する。
提案手法は,まずオブジェクト分割ネットワークによって映像中の潜在的音像を位置決めし,その音像候補と所定の音声を関連付ける。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
- 参考スコア(独自算出の注目度): 26.473529162341837
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The audio-visual segmentation (AVS) task aims to segment sounding objects
from a given video. Existing works mainly focus on fusing audio and visual
features of a given video to achieve sounding object masks. However, we
observed that prior arts are prone to segment a certain salient object in a
video regardless of the audio information. This is because sounding objects are
often the most salient ones in the AVS dataset. Thus, current AVS methods might
fail to localize genuine sounding objects due to the dataset bias. In this
work, we present an audio-visual instance-aware segmentation approach to
overcome the dataset bias. In a nutshell, our method first localizes potential
sounding objects in a video by an object segmentation network, and then
associates the sounding object candidates with the given audio. We notice that
an object could be a sounding object in one video but a silent one in another
video. This would bring ambiguity in training our object segmentation network
as only sounding objects have corresponding segmentation masks. We thus propose
a silent object-aware segmentation objective to alleviate the ambiguity.
Moreover, since the category information of audio is unknown, especially for
multiple sounding sources, we propose to explore the audio-visual semantic
correlation and then associate audio with potential objects. Specifically, we
attend predicted audio category scores to potential instance masks and these
scores will highlight corresponding sounding instances while suppressing
inaudible ones. When we enforce the attended instance masks to resemble the
ground-truth mask, we are able to establish audio-visual semantics correlation.
Experimental results on the AVS benchmarks demonstrate that our method can
effectively segment sounding objects without being biased to salient objects.
- Abstract(参考訳): オーディオ・ビジュアルセグメンテーション(avs)タスクは、所定のビデオから音声オブジェクトをセグメンテーションすることを目的としている。
既存の作品は、主に音声とビデオの視覚的特徴を融合させ、音を鳴らす物体マスクを実現することに焦点を当てている。
しかし,先行技術では,音声情報によらず,映像中の特定の有能な物体を分割する傾向が見られた。
これは、サウンドオブジェクトがしばしばAVSデータセットで最も健全なものであるためです。
したがって、現在のAVSメソッドは、データセットバイアスのため、真のサウンドオブジェクトのローカライズに失敗する可能性がある。
本稿では,データセットのバイアスを克服するための音声・視覚インスタンス対応セグメンテーション手法を提案する。
本手法は,まず対象セグメンテーションネットワークによってビデオ内の潜在的発音対象を局所化し,その後,所定の音声と音響対象候補を関連付ける。
私たちは、ある物体が1つのビデオで音を立てる物体であるだけでなく、別のビデオでサイレントな物体であることに気づきました。
これにより、オブジェクトセグメンテーションネットワークのトレーニングにおけるあいまいさが引き起こされ、サウンドオブジェクトだけが対応するセグメンテーションマスクを持つようになる。
そこで我々は、あいまいさを軽減するために、サイレントオブジェクト認識セグメンテーションの目的を提案する。
さらに、音声のカテゴリ情報は、特に複数の音源について不明であるため、音声と視覚のセマンティックな相関を探索し、音声を潜在的対象と関連付けることを提案する。
具体的には、予測されたオーディオカテゴリスコアを潜在的なインスタンスマスクに反映し、これらのスコアは、不可聴なインスタンスを抑圧しながら対応するインスタンスを強調する。
出席したインスタンスマスクを接地真面に類似させるように強制すると、音声と視覚のセマンティクスの相関関係を確立することができる。
AVSベンチマークによる実験結果から,本手法は健全な物体に偏ることなく効果的に音響オブジェクトを分割できることが示されている。
関連論文リスト
- Can Textual Semantics Mitigate Sounding Object Segmentation Preference? [10.368382203643739]
音声は視覚に比べて頑健な意味論が欠如しており、視覚空間上での音声誘導の弱さをもたらすと我々は主張する。
テキストのモダリティがよく探求され、豊富な抽象的意味論を含むという事実に触発され、視覚シーンからのテキストキューを活用して音声誘導を強化することを提案する。
本手法は,3つのサブセットすべてに対して高い競争性能を達成し,テキストキューに助けられた場合の音声に対する感度の向上を示す。
論文 参考訳(メタデータ) (2024-07-15T17:45:20Z) - Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Audio-Visual Segmentation with Semantics [45.5917563087477]
オーディオ・ビジュアル・セグメンテーション(AVS)と呼ばれる新しい問題を提案する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
AVSBench という,可聴ビデオ中のオブジェクトの音声に対する画素単位のアノテーションを提供する,最初の音声-視覚的セグメンテーションベンチマークを構築した。
論文 参考訳(メタデータ) (2023-01-30T18:53:32Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。