論文の概要: Watching Too Much Television is Good: Self-Supervised Audio-Visual
Representation Learning from Movies and TV Shows
- arxiv url: http://arxiv.org/abs/2106.08513v1
- Date: Wed, 16 Jun 2021 02:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:25:11.673463
- Title: Watching Too Much Television is Good: Self-Supervised Audio-Visual
Representation Learning from Movies and TV Shows
- Title(参考訳): テレビの視聴が大きすぎる:映画やテレビ番組の自己監督による映像表現学習
- Authors: Mahdi M. Kalayeh, Nagendra Kamath, Lingyi Liu and Ashok Chandrashekar
- Abstract要約: 本研究では,映画やテレビ番組からの学習の有効性を,音声・視覚的自己指導学習のための未計算データの形式として検討する。
映画やテレビ番組のコレクションで訓練された、コントラスト学習に基づくシンプルなモデルが、より複雑な手法を劇的に上回っていることを実証する。
- 参考スコア(独自算出の注目度): 6.247268652296234
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The abundance and ease of utilizing sound, along with the fact that auditory
clues reveal so much about what happens in the scene, make the audio-visual
space a perfectly intuitive choice for self-supervised representation learning.
However, the current literature suggests that training on \textit{uncurated}
data yields considerably poorer representations compared to the
\textit{curated} alternatives collected in supervised manner, and the gap only
narrows when the volume of data significantly increases. Furthermore, the
quality of learned representations is known to be heavily influenced by the
size and taxonomy of the curated datasets used for self-supervised training.
This begs the question of whether we are celebrating too early on catching up
with supervised learning when our self-supervised efforts still rely almost
exclusively on curated data. In this paper, we study the efficacy of learning
from Movies and TV Shows as forms of uncurated data for audio-visual
self-supervised learning. We demonstrate that a simple model based on
contrastive learning, trained on a collection of movies and TV shows, not only
dramatically outperforms more complex methods which are trained on orders of
magnitude larger uncurated datasets, but also performs very competitively with
the state-of-the-art that learns from large-scale curated data. We identify
that audiovisual patterns like the appearance of the main character or
prominent scenes and mise-en-sc\`ene which frequently occur through the whole
duration of a movie, lead to an overabundance of easy negative instances in the
contrastive learning formulation. Capitalizing on such observation, we propose
a hierarchical sampling policy, which despite its simplicity, effectively
improves the performance, particularly when learning from TV shows which
naturally face less semantic diversity.
- Abstract(参考訳): 音の活用の多さと容易さに加えて、聴覚的手がかりがシーンで何が起こるかを明らかにしているという事実により、オーディオ視覚空間は、自己教師付き表現学習にとって、完全に直感的な選択となる。
しかしながら、現在の文献では、 \textit{uncurated} データのトレーニングは、教師付き方法で収集された \textit{curated} 代替よりもかなり貧弱な表現をもたらし、そのギャップはデータのボリュームが著しく増加すると狭くなることを示唆している。
さらに、学習表現の質は、自己教師付きトレーニングに使用されるキュレーションデータセットのサイズと分類に大きく影響されることが知られている。
これは、自己監督活動がほとんどキュレーションされたデータに依存している場合、教師付き学習に追いつくのに早すぎるかどうかを問うものだ。
本稿では,映画やテレビ番組からの学習を,音声・視覚的自己監督学習のための未修正データの形式として活用する。
映画やテレビ番組のコレクションに基づいて訓練された,コントラスト学習に基づく単純なモデルが,大規模な未解決データセットでトレーニングされる複雑な手法を劇的に上回っているだけでなく,大規模に収集されたデータから学ぶ最先端技術と非常に競争力があることを示す。
主キャラクターの出現や目立った場面、映画全体を通して頻繁に起こるミセ・エン・スクエンなどの視聴覚パターンは、コントラスト学習の定式化において、簡単な否定的な例が多すぎることが判明した。
そこで,このような観察を生かした階層的サンプリングポリシーを提案し,その単純さにもかかわらず,特に自然に意味的多様性の少ないテレビ番組から学習する場合に,効果的に性能を向上させる手法を提案する。
関連論文リスト
- Sequential Contrastive Audio-Visual Learning [12.848371604063168]
逐次距離を用いた非集約表現空間に基づく実例を対比した逐次コントラスト音声視覚学習(SCAV)を提案する。
VGGSoundとMusicのデータセットによる検索実験は、SCAVの有効性を実証している。
また、SCAVでトレーニングしたモデルは、検索に使用されるメトリックに関して高い柔軟性を示し、効率-精度トレードオフのスペクトル上で動作可能であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:45:20Z) - Speech representation learning: Learning bidirectional encoders with
single-view, multi-view, and multi-task methods [7.1345443932276424]
この論文は、時間や空間によるシーケンスデータの表現学習に焦点を当てている。
学習した表現を用いて下流のシーケンス予測タスクを改善することを目的としている。
論文 参考訳(メタデータ) (2023-07-25T20:38:55Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - On Negative Sampling for Audio-Visual Contrastive Learning from Movies [12.967364755951722]
本研究では,未修正長大コンテンツ,すなわち映画からの音声・視覚的自己指導学習の有効性について検討する。
実験結果から、一定の修正を加えて、未処理のロングフォームビデオのトレーニングによって、最先端技術と競合する表現が得られることが示唆された。
論文 参考訳(メタデータ) (2022-04-29T20:36:13Z) - The Impact of Spatiotemporal Augmentations on Self-Supervised
Audiovisual Representation Learning [2.28438857884398]
ラベルなしビデオから音声視覚表現を学習するための対照的な枠組みを提案する。
ビデオの時間的コヒーレンシーを損なわない損失時間変換が最も効果的であることがわかった。
サンプリングベース時間拡張のみで事前訓練された自己教師モデルと比較して、時間拡張で事前訓練された自己教師モデルは、データセットAVE上での線形性能が約6.5%向上する。
論文 参考訳(メタデータ) (2021-10-13T23:48:58Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。