Fugu-MT 論文翻訳(概要): Self-supervised video pretraining yields strong image representations

論文の概要: Self-supervised video pretraining yields strong image representations

arxiv url: http://arxiv.org/abs/2210.06433v1
Date: Wed, 12 Oct 2022 17:30:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 12:25:38.784195
Title: Self-supervised video pretraining yields strong image representations
Title（参考訳）: 自己教師付きビデオプリトレーニングは強い画像表現をもたらす
Authors: Nikhil Parthasarathy, S. M. Ali Eslami, Jo\~ao Carreira, Olivier J. H\'enaff
Abstract要約: ビデオフレームの動的進化から画像表現の自己教師型学習を再考する。ビデオと画像のデータセット間のドメインミスマッチに対処するデータセットキュレーション手法を提案する。本研究では,自然ビデオに現れる複雑な変換を扱うコントラスト学習フレームワークを開発する。
参考スコア（独自算出の注目度）: 10.406358397515838
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Videos contain far more information than still images and hold the potential for learning rich representations of the visual world. Yet, pretraining on image datasets has remained the dominant paradigm for learning representations that capture spatial information, and previous attempts at video pretraining have fallen short on image understanding tasks. In this work we revisit self-supervised learning of image representations from the dynamic evolution of video frames. To that end, we propose a dataset curation procedure that addresses the domain mismatch between video and image datasets, and develop a contrastive learning framework which handles the complex transformations present in natural videos. This simple paradigm for distilling knowledge from videos to image representations, called VITO, performs surprisingly well on a variety of image-based transfer learning tasks. For the first time, our video-pretrained model closes the gap with ImageNet pretraining on semantic segmentation on PASCAL and ADE20K and object detection on COCO and LVIS, suggesting that video-pretraining could become the new default for learning image representations.
Abstract（参考訳）: ビデオには静止画よりもはるかに多くの情報が含まれており、視覚世界の豊かな表現を学ぶ可能性を秘めている。しかし、画像データセットの事前トレーニングは、空間情報をキャプチャする表現を学習するための主要なパラダイムであり続けており、以前のビデオ事前トレーニングの試みは、画像理解タスクに不足している。本研究では,映像フレームの動的進化から映像表現の自己教師あり学習を再考する。そこで本研究では,映像と画像データセットのドメインミスマッチに対処するデータセットキュレーション手法を提案し,自然映像に存在する複雑な変換を扱うコントラスト学習フレームワークを開発した。ビデオから画像表現へ知識を抽出する、VTOと呼ばれるこのシンプルなパラダイムは、さまざまな画像ベースの転写学習タスクで驚くほどうまく機能する。ビデオ事前学習モデルは,PASCALとADE20KのセマンティックセグメンテーションとCOCOとLVISのオブジェクト検出によるImageNet事前学習とギャップを埋めることで,ビデオ事前学習が画像表現の新たなデフォルトとなる可能性が示唆された。

関連論文リスト

Whole-Body Conditioned Egocentric Video Prediction [98.94980209293776]
我々は、人間行動(PEVA)からエゴ中心のビデオを予測するモデルを訓練する。身体の関節階層によって構成される運動的ポーズの軌跡を条件にすることで,人間の身体行動が1対1の視点から環境をどう形成するかをシミュレートする。我々の研究は、複雑な現実世界の環境をモデル化し、人間の視点から映像を予測するエージェントの振る舞いを具体化するための最初の試みである。
論文参考訳（メタデータ） (2025-06-26T17:59:59Z)
An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文参考訳（メタデータ） (2025-01-09T18:59:58Z)
Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations [19.45821593625599]
ビデオ拡散モデル(VDM)は、将来の画像シーケンスを正確に予測する能力を示した。本稿では,VDMからの視覚的表現を前提とした汎用ロボット政策であるビデオ予測ポリシーを提案する。 VPPは、2つのシミュレーションと2つの実世界のベンチマークで、既存のメソッドを一貫して上回っている。
論文参考訳（メタデータ） (2024-12-19T12:48:40Z)
Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文参考訳（メタデータ） (2024-11-05T15:18:02Z)
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文参考訳（メタデータ） (2024-06-03T17:59:57Z)
Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。 SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2024-04-08T15:22:38Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
Tem-adapter: Adapting Image-Text Pretraining for Video Question Answer [79.20605034378187]
ビデオ言語事前学習モデルは、ビデオ質問応答タスクの指導において顕著な成功を収めている。ビデオシーケンスの長さのため、大規模なビデオベースモデルのトレーニングは、画像ベースモデルのトレーニングよりもかなりコストがかかる。これは、画像ドメインとビデオドメインの間に明らかなギャップがあるにもかかわらず、画像ベースの事前学習からの知識を活用する動機となります。
論文参考訳（メタデータ） (2023-08-16T15:00:50Z)
How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。 Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。 Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文参考訳（メタデータ） (2022-10-18T17:58:25Z)
PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。 PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文参考訳（メタデータ） (2021-12-01T19:49:57Z)
Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文参考訳（メタデータ） (2021-10-07T15:30:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。