論文の概要: Active Contrastive Learning of Audio-Visual Video Representations
- arxiv url: http://arxiv.org/abs/2009.09805v2
- Date: Fri, 16 Apr 2021 22:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:53:03.787862
- Title: Active Contrastive Learning of Audio-Visual Video Representations
- Title(参考訳): 音声・視覚映像表現のアクティブコントラスト学習
- Authors: Shuang Ma, Zhaoyang Zeng, Daniel McDuff, Yale Song
- Abstract要約: そこで本稿では,多種多様かつ情報のある辞書をテキスト化して構築する,アクティブコントラスト学習手法を提案する。
我々のモデルは、挑戦的なオーディオとビジュアルダウンストリームのベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 35.59750167222663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has been shown to produce generalizable representations
of audio and visual data by maximizing the lower bound on the mutual
information (MI) between different views of an instance. However, obtaining a
tight lower bound requires a sample size exponential in MI and thus a large set
of negative samples. We can incorporate more samples by building a large
queue-based dictionary, but there are theoretical limits to performance
improvements even with a large number of negative samples. We hypothesize that
\textit{random negative sampling} leads to a highly redundant dictionary that
results in suboptimal representations for downstream tasks. In this paper, we
propose an active contrastive learning approach that builds an \textit{actively
sampled} dictionary with diverse and informative items, which improves the
quality of negative samples and improves performances on tasks where there is
high mutual information in the data, e.g., video classification. Our model
achieves state-of-the-art performance on challenging audio and visual
downstream benchmarks including UCF101, HMDB51 and ESC50.\footnote{Code is
available at: \url{https://github.com/yunyikristy/CM-ACC}}
- Abstract(参考訳): コントラスト学習は、インスタンスの異なるビュー間の相互情報(MI)の下位境界を最大化することにより、音声および視覚データの一般化可能な表現を生成する。
しかし、狭い下界を得るには、miで指数関数的なサンプルサイズが必要であり、従って大量の負のサンプルが必要となる。
大規模なキューベースの辞書を構築することで、より多くのサンプルを組み込むことができるが、多くの負のサンプルであっても、性能改善には理論的に制限がある。
我々は,<textit{random negative sample} が,下流タスクの最適部分表現をもたらす非常に冗長な辞書につながることを仮定する。
本稿では,データに高い相互情報が存在するタスク,例えばビデオ分類などにおいて,ネガティブなサンプルの品質向上とパフォーマンス向上を実現するために,多種多様かつ情報的な項目を用いた「textit{actively sampled}」辞書を構築するためのアクティブコントラスト学習手法を提案する。
このモデルは、utf101、hmdb51、esc50を含む、挑戦的なオーディオとビジュアルのダウンストリームベンチマークで最先端のパフォーマンスを達成します。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Exploring the Impact of Negative Samples of Contrastive Learning: A Case
Study of Sentence Embedding [14.295787044482136]
文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル、すなわちMoCoSEを提案する。
我々は最大トレーサブル距離測定値を定義し、テキストが負のサンプルの履歴情報からどの程度の差があるかを学習する。
実験の結果,最大トレーサブル距離が一定の範囲にある場合に最もよい結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-26T08:29:25Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文 参考訳(メタデータ) (2020-10-06T15:38:54Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。