論文の概要: The Impact of Spatiotemporal Augmentations on Self-Supervised
Audiovisual Representation Learning
- arxiv url: http://arxiv.org/abs/2110.07082v1
- Date: Wed, 13 Oct 2021 23:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 14:50:36.875464
- Title: The Impact of Spatiotemporal Augmentations on Self-Supervised
Audiovisual Representation Learning
- Title(参考訳): 時空間拡張が自己教師付き視聴覚表現学習に及ぼす影響
- Authors: Haider Al-Tahan and Yalda Mohsenzadeh
- Abstract要約: ラベルなしビデオから音声視覚表現を学習するための対照的な枠組みを提案する。
ビデオの時間的コヒーレンシーを損なわない損失時間変換が最も効果的であることがわかった。
サンプリングベース時間拡張のみで事前訓練された自己教師モデルと比較して、時間拡張で事前訓練された自己教師モデルは、データセットAVE上での線形性能が約6.5%向上する。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contrastive learning of auditory and visual perception has been extremely
successful when investigated individually. However, there are still major
questions on how we could integrate principles learned from both domains to
attain effective audiovisual representations. In this paper, we present a
contrastive framework to learn audiovisual representations from unlabeled
videos. The type and strength of augmentations utilized during self-supervised
pre-training play a crucial role for contrastive frameworks to work
sufficiently. Hence, we extensively investigate composition of temporal
augmentations suitable for learning audiovisual representations; we find lossy
spatio-temporal transformations that do not corrupt the temporal coherency of
videos are the most effective. Furthermore, we show that the effectiveness of
these transformations scales with higher temporal resolution and stronger
transformation intensity. Compared to self-supervised models pre-trained on
only sampling-based temporal augmentation, self-supervised models pre-trained
with our temporal augmentations lead to approximately 6.5% gain on linear
classifier performance on AVE dataset. Lastly, we show that despite their
simplicity, our proposed transformations work well across self-supervised
learning frameworks (SimSiam, MoCoV3, etc), and benchmark audiovisual dataset
(AVE).
- Abstract(参考訳): 聴覚と視覚のコントラスト学習は,個別に検討した結果,極めて成功した。
しかし、両ドメインから学んだ原則を統合して効果的な音声視覚表現を実現するには、依然として大きな疑問がある。
本稿では,ラベルのないビデオから視聴覚表現を学ぶためのコントラストフレームワークを提案する。
自己指導型プレトレーニングにおける強化のタイプと強度は、対照的なフレームワークが十分に機能する上で重要な役割を担っている。
そこで本研究では,映像の時間的一貫性を損なわない時空間変換が最も効果的であることを示す。
さらに,これらの変換の有効性は,より高い時間分解能とより強い変換強度でスケールすることを示した。
サンプリングベース時間拡張のみで事前学習した自己教師モデルと比較して,時間拡張で事前学習した自己教師モデルは,AVEデータセット上での線形分類器の性能が約6.5%向上した。
最後に、単純さにもかかわらず、提案する変換は、自己教師付き学習フレームワーク(simsiam、mocov3など)とベンチマークオーディオビジュアルデータセット(ave)でうまく機能することを示す。
関連論文リスト
- Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Exploiting Transformation Invariance and Equivariance for
Self-supervised Sound Localisation [32.68710772281511]
本稿では,映像中の音源をローカライズするために,音声・視覚表現学習のための自己教師型フレームワークを提案する。
我々のモデルは、Flickr-SoundNet と VGG-Sound という2つの音像定位ベンチマークにおいて、従来の手法よりも優れていた。
このことから,提案するフレームワークは,局所化や一般化に有益である強いマルチモーダル表現を学習し,さらなる応用を図っている。
論文 参考訳(メタデータ) (2022-06-26T03:00:02Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Watching Too Much Television is Good: Self-Supervised Audio-Visual
Representation Learning from Movies and TV Shows [6.247268652296234]
本研究では,映画やテレビ番組からの学習の有効性を,音声・視覚的自己指導学習のための未計算データの形式として検討する。
映画やテレビ番組のコレクションで訓練された、コントラスト学習に基づくシンプルなモデルが、より複雑な手法を劇的に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-06-16T02:00:11Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。