論文の概要: On Negative Sampling for Audio-Visual Contrastive Learning from Movies
- arxiv url: http://arxiv.org/abs/2205.00073v1
- Date: Fri, 29 Apr 2022 20:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:25:13.600161
- Title: On Negative Sampling for Audio-Visual Contrastive Learning from Movies
- Title(参考訳): 映画からの視聴覚コントラスト学習のための負サンプリングについて
- Authors: Mahdi M. Kalayeh, Shervin Ardeshir, Lingyi Liu, Nagendra Kamath, Ashok
Chandrashekar
- Abstract要約: 本研究では,未修正長大コンテンツ,すなわち映画からの音声・視覚的自己指導学習の有効性について検討する。
実験結果から、一定の修正を加えて、未処理のロングフォームビデオのトレーニングによって、最先端技術と競合する表現が得られることが示唆された。
- 参考スコア(独自算出の注目度): 12.967364755951722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The abundance and ease of utilizing sound, along with the fact that auditory
clues reveal a plethora of information about what happens in a scene, make the
audio-visual space an intuitive choice for representation learning. In this
paper, we explore the efficacy of audio-visual self-supervised learning from
uncurated long-form content i.e movies. Studying its differences with
conventional short-form content, we identify a non-i.i.d distribution of data,
driven by the nature of movies. Specifically, we find long-form content to
naturally contain a diverse set of semantic concepts (semantic diversity),
where a large portion of them, such as main characters and environments often
reappear frequently throughout the movie (reoccurring semantic concepts). In
addition, movies often contain content-exclusive artistic artifacts, such as
color palettes or thematic music, which are strong signals for uniquely
distinguishing a movie (non-semantic consistency). Capitalizing on these
observations, we comprehensively study the effect of emphasizing within-movie
negative sampling in a contrastive learning setup. Our view is different from
those of prior works who consider within-video positive sampling, inspired by
the notion of semantic persistency over time, and operate in a short-video
regime. Our empirical findings suggest that, with certain modifications,
training on uncurated long-form videos yields representations which transfer
competitively with the state-of-the-art to a variety of action recognition and
audio classification tasks.
- Abstract(参考訳): 音の活用の多さと容易さに加えて、聴覚的手がかりがシーンで何が起こるかについての多くの情報を明らかにするという事実により、オーディオ視覚空間は表現学習の直感的な選択となる。
本稿では,未修正長編映画からの音声・視覚的自己指導学習の有効性について検討する。
従来のショートフォームコンテンツとの違いについて検討し、映画の性質によって駆動されるデータの非I.d分布を同定する。
特に、長い形式のコンテンツには、自然に様々な意味概念(セマンティクスの多様性)が含まれており、そこでは主要キャラクターや環境など、その大部分が映画を通して頻繁に現れる(セマンティクスのコンセプトを繰り返す)。
加えて、映画には、映画を独特に区別するための強いシグナルであるカラーパレットやテーマ音楽など、コンテンツ排他的な芸術的アーティファクトが含まれることが多い。
本研究は,これらの観察を活かし,対照学習環境における運動内負サンプリングの強調効果を包括的に検討する。
我々の見解は、時間とともに意味的持続性の概念に触発され、短いビデオ体制で運用される、ビデオ内のポジティブサンプリングを考える以前の作品とは異なる。
実験結果から,一定の修正を加えて,未修正長ビデオのトレーニングによって,最先端技術と競合する表現が,さまざまな行動認識や音声分類タスクに伝達されることが示唆された。
関連論文リスト
- Towards Contrastive Learning in Music Video Domain [46.29203572184694]
我々は、オーディオとビデオのモダリティのためのデュアルエンコーダを作成し、双方向のコントラスト損失を用いてトレーニングする。
実験では、50万曲のミュージックビデオを含む業界データセットと、公開ミリオンソングデータセットを使用します。
この結果から, コントラスト的な微調整のない事前学習ネットワークは, 両タスクで評価した場合に, コントラスト的な学習手法より優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-01T09:08:21Z) - Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - Learning from Untrimmed Videos: Self-Supervised Video Representation
Learning with Hierarchical Consistency [60.756222188023635]
教師なしビデオにおいて,より豊富な情報を活用することで表現の学習を提案する。
HiCoは、トリミングされていないビデオのより強力な表現を生成するだけでなく、トリミングされたビデオに適用した場合の表現品質も向上する。
論文 参考訳(メタデータ) (2022-04-06T18:04:54Z) - Watching Too Much Television is Good: Self-Supervised Audio-Visual
Representation Learning from Movies and TV Shows [6.247268652296234]
本研究では,映画やテレビ番組からの学習の有効性を,音声・視覚的自己指導学習のための未計算データの形式として検討する。
映画やテレビ番組のコレクションで訓練された、コントラスト学習に基づくシンプルなモデルが、より複雑な手法を劇的に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-06-16T02:00:11Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。