論文の概要: OmniMAE: Single Model Masked Pretraining on Images and Videos
- arxiv url: http://arxiv.org/abs/2206.08356v2
- Date: Wed, 31 May 2023 04:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:57:18.819032
- Title: OmniMAE: Single Model Masked Pretraining on Images and Videos
- Title(参考訳): omnimae: 画像やビデオに仮装されたシングルモデル
- Authors: Rohit Girdhar, Alaaeldin El-Nouby, Mannat Singh, Kalyan Vasudev
Alwala, Armand Joulin, Ishan Misra
- Abstract要約: マスク付きオートエンコーディングは、画像やビデオ上で単純なVision Transformerをトレーニングするために使用することができる。
我々は、我々の単一のViT-Hugeモデルを、ImageNetで86.6%、挑戦的なSomes-v2ビデオベンチマークで75.5%の精度で微調整できることを示した。
- 参考スコア(独自算出の注目度): 40.985481596672265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based architectures have become competitive across a variety of
visual domains, most notably images and videos. While prior work studies these
modalities in isolation, having a common architecture suggests that one can
train a single unified model for multiple visual modalities. Prior attempts at
unified modeling typically use architectures tailored for vision tasks, or
obtain worse performance compared to single modality models. In this work, we
show that masked autoencoding can be used to train a simple Vision Transformer
on images and videos, without requiring any labeled data. This single model
learns visual representations that are comparable to or better than
single-modality representations on both image and video benchmarks, while using
a much simpler architecture. Furthermore, this model can be learned by dropping
90% of the image and 95% of the video patches, enabling extremely fast training
of huge model architectures. In particular, we show that our single ViT-Huge
model can be finetuned to achieve 86.6% on ImageNet and 75.5% on the
challenging Something Something-v2 video benchmark, setting a new
state-of-the-art.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、画像やビデオなど、さまざまな視覚領域で競合している。
先行研究はこれらのモダリティを分離して研究するが、共通のアーキテクチャを持つことは、複数の視覚モダリティに対して単一の統一モデルを訓練できることを示唆している。
統一モデリングの以前の試みでは、一般的にビジョンタスク用に調整されたアーキテクチャを使うか、単一のモダリティモデルよりも悪いパフォーマンスを得る。
本研究では,マスク付き自動エンコーディングにより,ラベル付きデータを必要としない画像やビデオの単純な視覚トランスフォーマーを訓練できることを実証する。
この単一モデルは、画像とビデオのベンチマークの両方でシングルモダリティ表現に匹敵する、あるいは優れたビジュアル表現を学習し、よりシンプルなアーキテクチャを使用する。
さらに、このモデルは、画像の90%とビデオパッチの95%を削減し、巨大なモデルアーキテクチャの極めて高速なトレーニングを可能にすることで学習することができる。
特に、我々の単一のViT-Hugeモデルでは、ImageNetで86.6%、挑戦的なSomes-v2ビデオベンチマークで75.5%を達成でき、新しい最先端技術が設定できる。
関連論文リスト
- Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - AIM: Adapting Image Models for Efficient Video Action Recognition [22.805026175928997]
本稿では,映像理解のためのAIM (Adapted Pre-trained Image Models) を提案する。
事前学習したビデオモデルを凍結し、いくつかの軽量なアダプタを追加することにより、空間適応、時間適応、関節適応を導入する。
提案したAIMは,学習可能なパラメータが大幅に少ない先行技術よりも,競争力やパフォーマンスの向上が期待できることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:59:17Z) - Omnivore: A Single Model for Many Visual Modalities [47.94002558594031]
以前の研究は、異なる視覚的モダリティを分離して研究し、画像、ビデオ、および3Dデータの認識のためのアーキテクチャを別々に開発してきた。
同一のモデルパラメータを用いて,画像,ビデオ,シングルビューの3Dデータの分類に優れる単一モデルを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:58:03Z) - A strong baseline for image and video quality assessment [4.73466728067544]
画像と映像の知覚的品質評価のための,シンプルで効果的な統合モデルを提案する。
本モデルでは,バックボーンネットワークから派生したグローバルな特徴を1つだけ適用することで,同等の性能を実現する。
提案したアーキテクチャに基づいて、3つの一般的な実世界のシナリオに対して十分に訓練されたモデルをリリースする。
論文 参考訳(メタデータ) (2021-11-13T12:24:08Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。