論文の概要: Transavs: End-To-End Audio-Visual Segmentation With Transformer
- arxiv url: http://arxiv.org/abs/2305.07223v2
- Date: Tue, 26 Dec 2023 12:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 01:57:45.283681
- Title: Transavs: End-To-End Audio-Visual Segmentation With Transformer
- Title(参考訳): Transavs: Transformerを使ったオーディオ・ビジュアル・セグメンテーション
- Authors: Yuhang Ling, Yuxi Li, Zhenye Gan, Jiangning Zhang, Mingmin Chi, Yabiao
Wang
- Abstract要約: 本稿では,トランスフォーマーをベースとしたオーディオ・ビジュアルタスクのためのエンドツーエンドフレームワークであるTransAVSを提案する。
TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、セグメンテーションマスクにデコードする。
実験の結果,TransAVS は AVSBench データセット上で最先端の結果を得ることができた。
- 参考スコア(独自算出の注目度): 33.56539999875508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Segmentation (AVS) is a challenging task, which aims to segment
sounding objects in video frames by exploring audio signals. Generally AVS
faces two key challenges: (1) Audio signals inherently exhibit a high degree of
information density, as sounds produced by multiple objects are entangled
within the same audio stream; (2) Objects of the same category tend to produce
similar audio signals, making it difficult to distinguish between them and thus
leading to unclear segmentation results. Toward this end, we propose TransAVS,
the first Transformer-based end-to-end framework for AVS task. Specifically,
TransAVS disentangles the audio stream as audio queries, which will interact
with images and decode into segmentation masks with full transformer
architectures. This scheme not only promotes comprehensive audio-image
communication but also explicitly excavates instance cues encapsulated in the
scene. Meanwhile, to encourage these audio queries to capture distinctive
sounding objects instead of degrading to be homogeneous, we devise two
self-supervised loss functions at both query and mask levels, allowing the
model to capture distinctive features within similar audio data and achieve
more precise segmentation. Our experiments demonstrate that TransAVS achieves
state-of-the-art results on the AVSBench dataset, highlighting its
effectiveness in bridging the gap between audio and visual modalities.
- Abstract(参考訳): オーディオ・ビジュアル・セグメンテーション(AVS: Audio-Visual Segmentation)は、音声信号の探索により、映像フレーム内の音声オブジェクトをセグメント化することを目的とした課題である。
一般にAVSは,(1)複数のオブジェクトが生成する音声が同一のオーディオストリームに絡み合っているため,音声信号が本質的に高い情報密度を示すこと,(2)同じカテゴリのオブジェクトが類似した音声信号を生成する傾向があること,そしてそれらの区別が困難であること,そして,不明瞭なセグメンテーション結果をもたらすこと,の2つの課題に直面している。
そこで本研究では,TransformerベースのAVSタスク用エンドツーエンドフレームワークであるTransAVSを提案する。
具体的には、TransAVSはオーディオストリームをオーディオクエリとして切り離し、画像と対話し、完全なトランスフォーマーアーキテクチャを備えたセグメンテーションマスクにデコードする。
このスキームは包括的なオーディオ画像通信を促進するだけでなく、シーンにカプセル化されたインスタンスキューを明示的に抽出する。
一方,音声問合せに類似性を持たせるのではなく,明瞭な音響オブジェクトを捉えるよう促すため,クエリレベルとマスクレベルの両方で2つの自己教師付き損失関数を考案し,類似した音声データ内の特徴をキャプチャし,より正確なセグメンテーションを実現する。
実験の結果,TransAVS は AVSBench データセットの最先端性を実現し,オーディオと視覚のギャップを埋めることの有効性を強調した。
関連論文リスト
- Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Discovering Sounding Objects by Audio Queries for Audio Visual
Segmentation [36.50512269898893]
音質オブジェクトとサイレントオブジェクトを区別するためには、音声と視覚のセマンティック対応と時間的相互作用が必要である。
我々はAQFormerアーキテクチャを提案し、オーディオ情報に基づいてオブジェクトクエリのセットを定義する。
提案手法は,MS3設定における最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを実現する。
論文 参考訳(メタデータ) (2023-09-18T05:58:06Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Audio-Visual Segmentation [47.10873917119006]
本稿では,AVS(Audio-visual segmentation)と呼ばれる新しい課題について検討する。
ゴールは、画像フレームの時点で音を生成するオブジェクトのピクセルレベルのマップを出力することである。
本研究では,可聴ビデオにおける音声オブジェクトに対する画素単位のアノテーションを提供するAVSBench(Audio-visual segmentation benchmark)を構築した。
論文 参考訳(メタデータ) (2022-07-11T17:50:36Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。