論文の概要: Fine-grained Multi-Modal Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2112.12182v1
- Date: Wed, 22 Dec 2021 19:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 14:06:41.271088
- Title: Fine-grained Multi-Modal Self-Supervised Learning
- Title(参考訳): きめ細かいマルチモーダル自己監督学習
- Authors: Duo Wang, Salah Karout
- Abstract要約: ビデオからのマルチモーダル自己監視学習は、様々な下流タスクにおけるモデルの性能を改善することが示されている。
このような事前学習には、未処理のデータに発生するノイズのために、大きなバッチサイズと大量の計算資源が必要である。
そこで本稿では, 埋め込みの類似性を高精度に計算する, マルチモーダルな自己教師型学習手法を提案する。
- 参考スコア(独自算出の注目度): 4.850800439026724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Modal Self-Supervised Learning from videos has been shown to improve
model's performance on various downstream tasks. However, such Self-Supervised
pre-training requires large batch sizes and a large amount of computation
resources due to the noise present in the uncurated data. This is partly due to
the fact that the prevalent training scheme is trained on coarse-grained
setting, in which vectors representing the whole video clips or natural
language sentences are used for computing similarity. Such scheme makes
training noisy as part of the video clips can be totally not correlated with
the other-modality input such as text description. In this paper, we propose a
fine-grained multi-modal self-supervised training scheme that computes the
similarity between embeddings at finer-scale (such as individual feature map
embeddings and embeddings of phrases), and uses attention mechanisms to reduce
noisy pairs' weighting in the loss function. We show that with the proposed
pre-training scheme, we can train smaller models, with smaller batch-size and
much less computational resources to achieve downstream tasks performances
comparable to State-Of-The-Art, for tasks including action recognition and
text-image retrievals.
- Abstract(参考訳): ビデオからのマルチモーダル自己監視学習は、様々な下流タスクにおけるモデルの性能を改善することが示されている。
しかし、このようなセルフスーパービジョン事前学習には、未処理データに存在するノイズのため、大きなバッチサイズと大量の計算資源が必要である。
これは、ビデオクリップ全体を表すベクトルや自然言語文が類似性を計算するために使用される粗粒度設定で、一般的なトレーニングスキームがトレーニングされているためでもある。
このようなスキームにより、ビデオクリップの一部としてのトレーニングノイズは、テキスト記述のような他のモダリティ入力と完全に相関しない。
本稿では,細かなスケールでの埋め込み(個々の特徴マップの埋め込みやフレーズの埋め込みなど)間の類似性を計算し,注意機構を用いて損失関数におけるノイズペアの重み付けを低減させる,細粒度マルチモーダル自己教師付き学習手法を提案する。
提案する事前学習方式により,より小さいバッチサイズで計算資源の少ない,より小さなモデルを訓練することで,動作認識やテキスト画像検索などのタスクにおいて,最先端に匹敵するダウンストリームタスクのパフォーマンスを実現することができることを示す。
関連論文リスト
- Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - BIM: Block-Wise Self-Supervised Learning with Masked Image Modeling [18.861945284506028]
Masked Image Modeling (MIM)は、画像パッチから貴重な洞察を抽出し、基盤となるディープニューラルネットワーク(DNN)の機能抽出能力を高めることを目的としている。
論文 参考訳(メタデータ) (2023-11-28T20:42:30Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。
また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文 参考訳(メタデータ) (2020-04-29T16:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。