論文の概要: Contrastive Learning of Global and Local Audio-Visual Representations
- arxiv url: http://arxiv.org/abs/2104.05418v1
- Date: Wed, 7 Apr 2021 07:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 19:42:56.641327
- Title: Contrastive Learning of Global and Local Audio-Visual Representations
- Title(参考訳): グローバル・ローカル・オーディオ・ビジュアル表現のコントラスト学習
- Authors: Shuang Ma, Zhaoyang Zeng, Daniel McDuff, Yale Song
- Abstract要約: グローバルな意味情報を必要とするタスクに一般化する音声視覚表現を学習するための多目的自己教師方式を提案する。
提案手法は,アクション・サウンド分類,口唇読解,ディープフェイク検出,音源定位など,下流の様々なシナリオで汎用的な映像表現を学習できることを示す。
- 参考スコア(独自算出の注目度): 25.557229705149577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has delivered impressive results in many audio-visual
representation learning scenarios. However, existing approaches optimize for
learning either \textit{global} representations useful for tasks such as
classification, or \textit{local} representations useful for tasks such as
audio-visual source localization and separation. While they produce
satisfactory results in their intended downstream scenarios, they often fail to
generalize to tasks that they were not originally designed for. In this work,
we propose a versatile self-supervised approach to learn audio-visual
representations that generalize to both the tasks which require global semantic
information (e.g., classification) and the tasks that require fine-grained
spatio-temporal information (e.g. localization). We achieve this by optimizing
two cross-modal contrastive objectives that together encourage our model to
learn discriminative global-local visual information given audio signals. To
show that our approach learns generalizable video representations, we evaluate
it on various downstream scenarios including action/sound classification, lip
reading, deepfake detection, and sound source localization.
- Abstract(参考訳): コントラスト学習は多くのオーディオ視覚表現学習シナリオで印象的な結果をもたらした。
しかし、既存のアプローチでは、分類などのタスクに有用な \textit{global} 表現や、音声-視覚的ソースのローカライゼーションや分離のようなタスクに有用な \textit{local} 表現を学習するために最適化されている。
彼らは意図した下流シナリオで満足な結果を生み出すが、本来設計されていないタスクに一般化できないことが多い。
本研究では,グローバルな意味情報を必要とするタスク(例えば分類)と詳細な時空間情報を必要とするタスク(例えば,分類)の両方に一般化する音声視覚表現を学習するための多目的自己教師方式を提案する。
ローカライゼーション)。
そこで我々は,音声信号が与える識別的局所視覚情報の学習をモデルに促す2つのクロスモーダルコントラスト目標を最適化することで,これを実現する。
提案手法は, 動作/音の分類, 唇読取, ディープフェイク検出, 音源定位など, 様々な下流シナリオにおいて, 一般的な映像表現を学習していることを示す。
関連論文リスト
- Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Prompting Segmentation with Sound Is Generalizable Audio-Visual Source
Localizer [22.846623384472377]
本稿では,アンコーダ-プロンプト-デコーダのパラダイムを導入し,融合したオーディオ視覚機能からローカライゼーションをデコードする。
具体的には,まずセマンティック・アウェア・オーディオ・プロンプト (SAP) の構築について提案する。
我々は,視覚基盤モデルの適切な知識を維持しつつ,最小限のトレーニング努力を維持するための相関適応器(ColA)を開発した。
論文 参考訳(メタデータ) (2023-09-13T05:43:35Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Discriminative Sounding Objects Localization via Self-supervised
Audiovisual Matching [87.42246194790467]
自己教師付きクラス認識オブジェクトの定位を行うための2段階学習フレームワークを提案する。
我々は,無声オブジェクトをフィルタリングし,異なるクラスの音響オブジェクトの位置を指摘するのに,我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T05:51:55Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。