論文の概要: Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation
- arxiv url: http://arxiv.org/abs/2412.08161v1
- Date: Wed, 11 Dec 2024 07:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:07.627041
- Title: Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation
- Title(参考訳): オーディオ・ビジュアル・セグメンテーションにおける時間的ミスアライメントのための協調型ハイブリッド・プロパゲータ
- Authors: Kexin Li, Zongxin Yang, Yi Yang, Jun Xiao,
- Abstract要約: AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。
現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。
本稿では,協調型ハイブリッドプロパゲータフレームワーク(Co-Prop)を提案する。
- 参考スコア(独自算出の注目度): 39.38821481268827
- License:
- Abstract: Audio-visual video segmentation (AVVS) aims to generate pixel-level maps of sound-producing objects that accurately align with the corresponding audio. However, existing methods often face temporal misalignment, where audio cues and segmentation results are not temporally coordinated. Audio provides two critical pieces of information: i) target object-level details and ii) the timing of when objects start and stop producing sounds. Current methods focus more on object-level information but neglect the boundaries of audio semantic changes, leading to temporal misalignment. To address this issue, we propose a Collaborative Hybrid Propagator Framework~(Co-Prop). This framework includes two main steps: Preliminary Audio Boundary Anchoring and Frame-by-Frame Audio-Insert Propagation. To Anchor the audio boundary, we employ retrieval-assist prompts with Qwen large language models to identify control points of audio semantic changes. These control points split the audio into semantically consistent audio portions. After obtaining the control point lists, we propose the Audio Insertion Propagator to process each audio portion using a frame-by-frame audio insertion propagation and matching approach. We curated a compact dataset comprising diverse source conversion cases and devised a metric to assess alignment rates. Compared to traditional simultaneous processing methods, our approach reduces memory requirements and facilitates frame alignment. Experimental results demonstrate the effectiveness of our approach across three datasets and two backbones. Furthermore, our method can be integrated with existing AVVS approaches, offering plug-and-play functionality to enhance their performance.
- Abstract(参考訳): AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。
しかし、既存の手法では、音声の手がかりやセグメンテーションの結果が時間的にコーディネートされないため、時間的ミスアライメントに直面することが多い。
オーディオは2つの重要な情報を提供する。
一 対象物レベルの詳細及び
二 物が音を発生させなくなったときのタイミング
現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。
本稿では,協調型ハイブリッドプロパゲータフレームワーク~(Co-Prop)を提案する。
このフレームワークには、プリミナリーオーディオ境界アンカリングとFrame-by-Frame Audio-Insert Propagationの2つの主要なステップが含まれている。
音声境界のアンカーとして,Qwen大言語モデルを用いた検索支援プロンプトを用いて,音声意味変化の制御点を同定する。
これらの制御ポイントは、音声を意味的に一貫したオーディオ部分に分割する。
制御点リストを得た後、フレーム単位のオーディオ挿入伝搬とマッチング手法を用いて、各オーディオ部分を処理するオーディオ挿入プロパゲータを提案する。
各種ソース変換事例からなるコンパクトデータセットをキュレートし,アライメント率を評価する指標を考案した。
従来の同時処理手法と比較して,本手法はメモリ要求を低減し,フレームアライメントを容易にする。
実験の結果,3つのデータセットと2つのバックボーンにまたがるアプローチの有効性が示された。
さらに,本手法は既存のAVVSアプローチと統合することができ,その性能向上のためのプラグイン・アンド・プレイ機能を提供する。
関連論文リスト
- AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。
我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。
提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文 参考訳(メタデータ) (2023-09-18T05:58:06Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文 参考訳(メタデータ) (2023-05-12T03:31:04Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。