Fugu-MT 論文翻訳(概要): CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

論文の概要: CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

arxiv url: http://arxiv.org/abs/2309.09709v1
Date: Mon, 18 Sep 2023 12:24:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 13:42:37.809266
Title: CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation
Title（参考訳）: catr : 視覚映像セグメンテーションのための組合せ依存音声問合せトランスフォーマ
Authors: Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xun
Abstract要約: 音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
参考スコア（独自算出の注目度）: 37.40030898428435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-visual video segmentation~(AVVS) aims to generate pixel-level maps of sound-producing objects within image frames and ensure the maps faithfully adhere to the given audio, such as identifying and segmenting a singing person in a video. However, existing methods exhibit two limitations: 1) they address video temporal features and audio-visual interactive features separately, disregarding the inherent spatial-temporal dependence of combined audio and video, and 2) they inadequately introduce audio constraints and object-level information during the decoding stage, resulting in segmentation outcomes that fail to comply with audio directives. To tackle these issues, we propose a decoupled audio-video transformer that combines audio and video features from their respective temporal and spatial dimensions, capturing their combined dependence. To optimize memory consumption, we design a block, which, when stacked, enables capturing audio-visual fine-grained combinatorial-dependence in a memory-efficient manner. Additionally, we introduce audio-constrained queries during the decoding phase. These queries contain rich object-level information, ensuring the decoded mask adheres to the sounds. Experimental results confirm our approach's effectiveness, with our framework achieving a new SOTA performance on all three datasets using two backbones. The code is available at \url{https://github.com/aspirinone/CATR.github.io}
Abstract（参考訳）: AVVS (Audio-visual video segmentation) は、画像フレーム内の音声生成対象のピクセルレベルのマップを生成し、ビデオ内の歌唱者の識別やセグメント化など、所定のオーディオに忠実に忠実に固執することを目的としている。しかし、既存の方法には2つの制限がある。 1)映像の時間的特徴と音声と視覚の対話的特徴を別々に扱い、音声と映像の組み合わせの空間的時間的依存性を無視し、 2) 復号段階では音声制約やオブジェクトレベルの情報が不十分であり, 音声指示に従わないセグメント化の結果が得られた。そこで本稿では,これらの問題に対処するために,各時間的および空間的次元から音声と映像の機能を結合した,分離したオーディオビデオトランスフォーマを提案する。メモリ消費を最適化するために、スタックすると、メモリ効率のよい方法で、視聴覚のきめ細かな組合せ依存性をキャプチャできるブロックを設計する。さらに,復号段階での音声制約クエリも導入する。これらのクエリにはリッチなオブジェクトレベルの情報が含まれており、デコードされたマスクが音に付着することを保証する。実験により,2つのバックボーンを用いた3つのデータセットに対して,新たなSOTA性能を実現することにより,アプローチの有効性を確認した。コードは \url{https://github.com/aspirinone/catr.github.io} で入手できる。

関連論文リスト

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer [60.83798235788669]
AVS (Audio-Visual) は、オーディオ信号に基づいて、映像フレームに音声を生成するオブジェクトを分割することを目的としている。本稿では,視覚由来の問合せを利用して,対応する音声や視覚情報を反復的に取得する視覚中心変換フレームワークを提案する。我々のフレームワークは,AVSBenchデータセットの3つのサブセット上で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-30T08:40:36Z)
Collaborative Hybrid Propagator for Temporal Misalignment in Audio-Visual Segmentation [39.38821481268827]
AVVS (Audio-visual Video segmentation) は、対応するオーディオと正確に一致した音声生成オブジェクトのピクセルレベルのマップを生成することを目的としている。現在の手法は、オブジェクトレベルの情報に重点を置いているが、音声の意味的変化の境界を無視しているため、時間的ミスアライメントが生じる。本稿では,協調型ハイブリッドプロパゲータフレームワーク(Co-Prop)を提案する。
論文参考訳（メタデータ） (2024-12-11T07:33:18Z)
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [28.172213291270868]
フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。 Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
論文参考訳（メタデータ） (2024-09-10T01:07:20Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文参考訳（メタデータ） (2023-09-18T05:58:06Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
Transavs: End-To-End Audio-Visual Segmentation With Transformer [33.56539999875508]
本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。 TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
論文参考訳（メタデータ） (2023-05-12T03:31:04Z)
Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文参考訳（メタデータ） (2023-02-01T18:19:37Z)
Object Segmentation with Audio Context [0.5243460995467893]
本プロジェクトは,ビデオインスタンスセグメンテーションタスクのためのマルチモーダル機能アグリゲーションについて検討する。ビデオセグメンテーションモデルに音声機能を統合することで、音声視覚学習方式を実現する。
論文参考訳（メタデータ） (2023-01-04T01:33:42Z)
Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文参考訳（メタデータ） (2022-07-11T17:50:36Z)
VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文参考訳（メタデータ） (2020-04-29T17:46:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。