論文の概要: Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations
- arxiv url: http://arxiv.org/abs/2308.11796v1
- Date: Tue, 22 Aug 2023 21:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:37:27.123641
- Title: Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations
- Title(参考訳): time does tell: 濃密な画像表現の自己教師付き時間チューニング
- Authors: Mohammadreza Salehi, Efstratios Gavves, Cees G. M. Snoek, Yuki M.
Asano
- Abstract要約: 本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
- 参考スコア(独自算出の注目度): 79.87044240860466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatially dense self-supervised learning is a rapidly growing problem domain
with promising applications for unsupervised segmentation and pretraining for
dense downstream tasks. Despite the abundance of temporal data in the form of
videos, this information-rich source has been largely overlooked. Our paper
aims to address this gap by proposing a novel approach that incorporates
temporal consistency in dense self-supervised learning. While methods designed
solely for images face difficulties in achieving even the same performance on
videos, our method improves not only the representation quality for videos-but
also images. Our approach, which we call time-tuning, starts from
image-pretrained models and fine-tunes them with a novel self-supervised
temporal-alignment clustering loss on unlabeled videos. This effectively
facilitates the transfer of high-level information from videos to image
representations. Time-tuning improves the state-of-the-art by 8-10% for
unsupervised semantic segmentation on videos and matches it for images. We
believe this method paves the way for further self-supervised scaling by
leveraging the abundant availability of videos. The implementation can be found
here : https://github.com/SMSD75/Timetuning
- Abstract(参考訳): 空間的に密接な自己教師あり学習は急速に成長する問題領域であり、教師なしセグメンテーションや密集した下流タスクの事前学習に有望な応用がある。
ビデオの形での時間データの豊富さにもかかわらず、この情報豊富な情報源は見過ごされている。
本稿では,集中型自己教師型学習における時間的一貫性を取り入れた新しい手法を提案する。
画像のみにデザインされた手法は、ビデオ上で同じパフォーマンスを達成できないが、ビデオの表現品質だけでなく、画像の表現品質も向上する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
これにより、ビデオから画像表現への高レベル情報の転送が効果的に行える。
タイムチューニングは、教師なしセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
本手法は,ビデオの高可用性を活用することで,さらに自己監督的なスケーリングを実現する方法であると考えている。
実装は以下の通りである。 https://github.com/SMSD75/Timetuning
関連論文リスト
- DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。
提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T09:30:52Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。