Fugu-MT 論文翻訳(概要): Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation

論文の概要: Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation

arxiv url: http://arxiv.org/abs/2412.08161v1
Date: Wed, 11 Dec 2024 07:33:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.592959
Title: Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation
Title（参考訳）: オーディオ・ビジュアル・セグメンテーションにおける時間的ミスアライメントのための協調型ハイブリッド・プロパゲータ
Authors: Kexin Li, Zongxin Yang, Yi Yang, Jun Xiao,
Abstract要約: AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。本稿では,協調型ハイブリッドプロパゲータフレームワーク(Co-Prop)を提案する。
参考スコア（独自算出の注目度）: 39.38821481268827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-visual video segmentation (AVVS) aims to generate pixel-level maps of sound-producing objects that accurately align with the corresponding audio. However, existing methods often face temporal misalignment, where audio cues and segmentation results are not temporally coordinated. Audio provides two critical pieces of information: i) target object-level details and ii) the timing of when objects start and stop producing sounds. Current methods focus more on object-level information but neglect the boundaries of audio semantic changes, leading to temporal misalignment. To address this issue, we propose a Collaborative Hybrid Propagator Framework~(Co-Prop). This framework includes two main steps: Preliminary Audio Boundary Anchoring and Frame-by-Frame Audio-Insert Propagation. To Anchor the audio boundary, we employ retrieval-assist prompts with Qwen large language models to identify control points of audio semantic changes. These control points split the audio into semantically consistent audio portions. After obtaining the control point lists, we propose the Audio Insertion Propagator to process each audio portion using a frame-by-frame audio insertion propagation and matching approach. We curated a compact dataset comprising diverse source conversion cases and devised a metric to assess alignment rates. Compared to traditional simultaneous processing methods, our approach reduces memory requirements and facilitates frame alignment. Experimental results demonstrate the effectiveness of our approach across three datasets and two backbones. Furthermore, our method can be integrated with existing AVVS approaches, offering plug-and-play functionality to enhance their performance.
Abstract（参考訳）: AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。しかし、既存の手法では、音声の手がかりやセグメンテーションの結果が時間的にコーディネートされないため、時間的ミスアライメントに直面することが多い。オーディオは2つの重要な情報を提供する。一対象物レベルの詳細及び二物が音を発生させなくなったときのタイミング現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。本稿では,協調型ハイブリッドプロパゲータフレームワーク~(Co-Prop)を提案する。このフレームワークには、プリミナリーオーディオ境界アンカリングとFrame-by-Frame Audio-Insert Propagationの2つの主要なステップが含まれている。音声境界のアンカーとして,Qwen大言語モデルを用いた検索支援プロンプトを用いて,音声意味変化の制御点を同定する。これらの制御ポイントは、音声を意味的に一貫したオーディオ部分に分割する。制御点リストを得た後、フレーム単位のオーディオ挿入伝搬とマッチング手法を用いて、各オーディオ部分を処理するオーディオ挿入プロパゲータを提案する。各種ソース変換事例からなるコンパクトデータセットをキュレートし,アライメント率を評価する指標を考案した。従来の同時処理手法と比較して,本手法はメモリ要求を低減し,フレームアライメントを容易にする。実験の結果,3つのデータセットと2つのバックボーンにまたがるアプローチの有効性が示された。さらに,本手法は既存のAVVSアプローチと統合することができ,その性能向上のためのプラグイン・アンド・プレイ機能を提供する。

関連論文リスト

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-30T08:40:36Z)
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文参考訳（メタデータ） (2025-05-02T12:59:58Z)
Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文参考訳（メタデータ） (2025-04-08T07:23:28Z)
Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [114.39028517171236]
そこで我々は,ゼロショット音声映像編集を導入し,新たなモデルトレーニングを必要とせず,特定のテキストプロンプトに合わせるために,オリジナル音声映像コンテンツを変換する新しいタスクを提案する。この課題を評価するために、ゼロショットオーディオビデオ編集用に明示的に設計されたベンチマークデータセットAvED-Benchをキュレートする。 AvEDは、AvED-Benchと最近のOAVEデータセットの両方で優れた結果を示し、その一般化能力を検証する。
論文参考訳（メタデータ） (2025-03-26T17:59:04Z)
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文参考訳（メタデータ） (2025-03-24T16:56:04Z)
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文参考訳（メタデータ） (2024-02-04T03:02:35Z)
STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文参考訳（メタデータ） (2023-10-12T10:50:21Z)
CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文参考訳（メタデータ） (2023-09-18T12:24:02Z)
Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文参考訳（メタデータ） (2023-09-18T05:58:06Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文参考訳（メタデータ） (2023-07-25T03:59:04Z)
Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文参考訳（メタデータ） (2022-07-11T17:50:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。