論文の概要: TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation
- arxiv url: http://arxiv.org/abs/2110.13412v1
- Date: Tue, 26 Oct 2021 04:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 14:57:47.756323
- Title: TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation
- Title(参考訳): TriBERT:視覚分離のための人中心型音声視覚表現学習
- Authors: Tanzila Rahman, Mengyu Yang, Leonid Sigal
- Abstract要約: ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 35.93516937521393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of transformer models in language, such as BERT, has
motivated the use of such architectures for multi-modal feature learning and
tasks. However, most multi-modal variants (e.g., ViLBERT) have limited
themselves to visual-linguistic data. Relatively few have explored its use in
audio-visual modalities, and none, to our knowledge, illustrate them in the
context of granular audio-visual detection or segmentation tasks such as sound
source separation and localization. In this work, we introduce TriBERT -- a
transformer-based architecture, inspired by ViLBERT, which enables contextual
feature learning across three modalities: vision, pose, and audio, with the use
of flexible co-attention. The use of pose keypoints is inspired by recent works
that illustrate that such representations can significantly boost performance
in many audio-visual scenarios where often one or more persons are responsible
for the sound explicitly (e.g., talking) or implicitly (e.g., sound produced as
a function of human manipulating an object). From a technical perspective, as
part of the TriBERT architecture, we introduce a learned visual tokenization
scheme based on spatial attention and leverage weak-supervision to allow
granular cross-modal interactions for visual and pose modalities. Further, we
supplement learning with sound-source separation loss formulated across all
three streams. We pre-train our model on the large MUSIC21 dataset and
demonstrate improved performance in audio-visual sound source separation on
that dataset as well as other datasets through fine-tuning. In addition, we
show that the learned TriBERT representations are generic and significantly
improve performance on other audio-visual tasks such as cross-modal
audio-visual-pose retrieval by as much as 66.7% in top-1 accuracy.
- Abstract(参考訳): BERTのような言語におけるトランスフォーマーモデルの成功は、マルチモーダルな特徴学習やタスクにそのようなアーキテクチャを使うことを動機付けている。
しかし、ほとんどのマルチモーダル変種(例えば、ViLBERT)は視覚言語データに制限されている。
音声と視覚のモダリティでの利用を探求した者は比較的少なく、我々の知る限りでは、音源分離やローカライゼーションのような粒度のオーディオ・ビジュアル検出やセグメンテーションタスクの文脈でそれらを説明する者はいない。
本研究では,VLBERTにヒントを得たトランスフォーマーベースのアーキテクチャであるTriBERTを紹介し,視覚,ポーズ,オーディオの3つのモードにわたるコンテキスト的特徴学習を実現する。
ポーズキーポイントの使用は、そのような表現が、しばしば1人または複数の人が明示的に音(例えば、会話)または暗黙的に(例えば、物体を操作する人間の機能として生成される音)に責任を負う多くの音声視覚シナリオにおいて、パフォーマンスを著しく向上させることができることを示す最近の作品に触発されたものである。
技術的観点からは、TriBERTアーキテクチャの一部として、空間的注意に基づく学習された視覚的トークン化スキームを導入し、弱スーパービジョンを活用して、視覚的およびポーズ的モダリティのための粒度のクロスモーダルな相互作用を可能にする。
さらに,3つのストリームにまたがって構成された音源分離損失による学習を補完する。
我々は、大規模なmusic21データセットでモデルを事前学習し、そのデータセットと他のデータセットの微調整による音声-視覚音源分離の性能向上を実証する。
さらに,学習したTriBERT表現は汎用的であり,音声-視覚間検索などの他の音響-視覚的タスクの性能を最大66.7%向上させることを示す。
関連論文リスト
- Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization [4.062872727927056]
MVAL(Multilingual Visual Answer Localization)の目的は、与えられた多言語質問に答えるビデオセグメントを見つけることである。
既存の手法は、視覚的モダリティのみに焦点を当てるか、視覚的モダリティとサブタイトルのモダリティを統合する。
本稿では,音声モダリティを組み込んで視覚的・テキスト的表現を増強するAVTSL法を提案する。
論文 参考訳(メタデータ) (2024-11-05T06:49:14Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。