論文の概要: Is ImageNet worth 1 video? Learning strong image encoders from 1 long
unlabelled video
- arxiv url: http://arxiv.org/abs/2310.08584v1
- Date: Thu, 12 Oct 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:14:52.517175
- Title: Is ImageNet worth 1 video? Learning strong image encoders from 1 long
unlabelled video
- Title(参考訳): ImageNetは1ビデオの価値はあるか?
1時間無ラベルビデオから強い画像エンコーダを学習する
- Authors: Shashanka Venkataramanan, Mamshad Nayeem Rizve, Jo\~ao Carreira, Yuki
M. Asano, Yannis Avrithis
- Abstract要約: 初対人ビデオを調査し,「ウォーキングツアー」データセットを導入する。
これらのビデオは高解像度で数時間の長さで、1回の未中断撮影で撮影される。
本稿では,連続ビデオからの学習に適した自己教師付き画像事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 35.691510323959456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has unlocked the potential of scaling up pretraining
to billions of images, since annotation is unnecessary. But are we making the
best use of data? How more economical can we be? In this work, we attempt to
answer this question by making two contributions. First, we investigate
first-person videos and introduce a "Walking Tours" dataset. These videos are
high-resolution, hours-long, captured in a single uninterrupted take, depicting
a large number of objects and actions with natural scene transitions. They are
unlabeled and uncurated, thus realistic for self-supervision and comparable
with human learning.
Second, we introduce a novel self-supervised image pretraining method
tailored for learning from continuous videos. Existing methods typically adapt
image-based pretraining approaches to incorporate more frames. Instead, we
advocate a "tracking to learn to recognize" approach. Our method called DoRA,
leads to attention maps that Discover and tRAck objects over time in an
end-to-end manner, using transformer cross-attention. We derive multiple views
from the tracks and use them in a classical self-supervised distillation loss.
Using our novel approach, a single Walking Tours video remarkably becomes a
strong competitor to ImageNet for several image and video downstream tasks.
- Abstract(参考訳): 自己教師付き学習は、アノテーションが不要であるため、何十億もの画像に事前学習を拡大する可能性を解き放った。
しかし、私たちはデータを最大限に活用していますか?
どのくらい経済的なのか。
本研究では,2つの貢献によってこの質問に答える。
まず,初対人ビデオを調査し,「ウォーキングツアー」データセットを導入する。
これらのビデオは高解像度で何時間にもわたって撮影され、多数のオブジェクトやアクションに自然なシーンの遷移を描いている。
ラベルなしで未計算なので、自己スーパービジョンには現実的であり、人間の学習に匹敵する。
第2に,連続映像から学習するための自己教師付き画像事前学習手法を提案する。
既存の手法は通常、より多くのフレームを組み込むために画像ベースの事前学習アプローチを適用する。
代わりに、私たちは"認識を学ぶための追跡"アプローチを提唱します。
我々の手法であるDoRAは、トランスフォーマーのクロスアテンションを用いて、時間とともにオブジェクトを発見・tRAckするアテンションマップを生成する。
トラックから複数のビューを導き,古典的な自己監督型蒸留損失に利用した。
われわれの新しいアプローチでは、単一のウォーキングツアービデオが、いくつかの画像やビデオのダウンストリームタスクにおいて、ImageNetの強力なライバルとなる。
関連論文リスト
- Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Ego-Vehicle Action Recognition based on Semi-Supervised Contrastive
Learning [0.0]
我々は,自走車行動に着目して,適切な映像間距離を定義することができることを示す。
教師付き学習に基づく既存の方法は、事前に定義されたクラスに該当しないビデオを扱うことができない。
半教師付きコントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:31Z) - My View is the Best View: Procedure Learning from Egocentric Videos [31.385646424154732]
既存のアプローチでは、手順を学ぶために第三者のビデオが一般的である。
我々は、ファーストパーソン(エゴセントリック)のウェアラブルカメラから得られたビデオが、そのアクションの邪魔にならない明確なビューを提供するのを観察する。
本稿では,プロシージャ学習のための自己教師型Cor corresponding and Cutフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T05:28:11Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。