論文の概要: Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation
- arxiv url: http://arxiv.org/abs/2309.09501v1
- Date: Mon, 18 Sep 2023 05:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:03:07.490680
- Title: Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation
- Title(参考訳): 音声ビジュアルセグメンテーションのための音声クエリによる発音物体の検出
- Authors: Shaofei Huang, Han Li, Yuqing Wang, Hongji Zhu, Jiao Dai, Jizhong Han,
Wenge Rong, Si Liu
- Abstract要約: 音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。
我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。
提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
- 参考スコア(独自算出の注目度): 36.50512269898893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio visual segmentation (AVS) aims to segment the sounding objects for each
frame of a given video. To distinguish the sounding objects from silent ones,
both audio-visual semantic correspondence and temporal interaction are
required. The previous method applies multi-frame cross-modal attention to
conduct pixel-level interactions between audio features and visual features of
multiple frames simultaneously, which is both redundant and implicit. In this
paper, we propose an Audio-Queried Transformer architecture, AQFormer, where we
define a set of object queries conditioned on audio information and associate
each of them to particular sounding objects. Explicit object-level semantic
correspondence between audio and visual modalities is established by gathering
object information from visual features with predefined audio queries. Besides,
an Audio-Bridged Temporal Interaction module is proposed to exchange sounding
object-relevant information among multiple frames with the bridge of audio
features. Extensive experiments are conducted on two AVS benchmarks to show
that our method achieves state-of-the-art performances, especially 7.1% M_J and
7.6% M_F gains on the MS3 setting.
- Abstract(参考訳): オーディオビジュアルセグメンテーション(avs)は、所定のビデオの各フレームの音響オブジェクトをセグメンテーションすることを目的としている。
音響オブジェクトと無音オブジェクトを区別するには、音声と視覚のセマンティック対応と時間的相互作用の両方が必要である。
先行手法では,マルチフレームのクロスモーダルな注意を施し,冗長かつ暗黙的な複数フレームの音響特徴と視覚特徴とのピクセルレベルのインタラクションを同時に行う。
本稿では,音声情報に基づくオブジェクトクエリの集合を定義し,それぞれを特定の音響オブジェクトに関連付ける,音声クエリ変換アーキテクチャ aqformer を提案する。
事前定義された音声クエリを用いて、視覚的特徴からオブジェクト情報を収集することにより、音声と視覚的モダリティのオブジェクトレベルのセマンティック対応を明示する。
さらに,複数フレーム間の音声関連情報を音声特徴のブリッジで交換するために,オーディオブリッジ型テンポラルインタラクションモジュールを提案する。
2つのAVSベンチマークにおいて,本手法が最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを達成することを示す。
関連論文リスト
- Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation [17.123212921673176]
本稿では,SAMのエンコーダとマスクデコーダの中間部分に組み込まれた時空間バイビジュアルアテンション(ST-B)モジュールを提案する。
ビデオフレームとオーディオストリーム間の時間的対応を伝達するために、オーディオ視覚機能を適応的に更新する。
提案手法は, AVSベンチマークの最先端手法, 特に8.3% mIoU が, 挑戦的なマルチソースサブセットよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T10:53:23Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。