論文の概要: Self-Supervised Representation Learning from Flow Equivariance
- arxiv url: http://arxiv.org/abs/2101.06553v1
- Date: Sat, 16 Jan 2021 23:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 04:35:01.035206
- Title: Self-Supervised Representation Learning from Flow Equivariance
- Title(参考訳): フロー等分散による自己教師付き表現学習
- Authors: Yuwen Xiong, Mengye Ren, Wenyuan Zeng, Raquel Urtasun
- Abstract要約: 本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
- 参考スコア(独自算出の注目度): 97.13056332559526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning is able to learn semantically
meaningful features; however, much of its recent success relies on multiple
crops of an image with very few objects. Instead of learning view-invariant
representation from simple images, humans learn representations in a complex
world with changing scenes by observing object movement, deformation, pose
variation, and ego motion. Motivated by this ability, we present a new
self-supervised learning representation framework that can be directly deployed
on a video stream of complex scenes with many moving objects. Our framework
features a simple flow equivariance objective that encourages the network to
predict the features of another frame by applying a flow transformation to the
features of the current frame. Our representations, learned from
high-resolution raw video, can be readily used for downstream tasks on static
images. Readout experiments on challenging semantic segmentation, instance
segmentation, and object detection benchmarks show that we are able to
outperform representations obtained from previous state-of-the-art methods
including SimCLR and BYOL.
- Abstract(参考訳): 自己教師付き表現学習は意味的に意味のある特徴を学習することができるが、最近の成功の多くは、非常に少ないオブジェクトを持つ画像の複数の作物に依存している。
単純な画像からビュー不変表現を学ぶ代わりに、物体の動き、変形、ポーズの変化、エゴの動きを観察することで、複雑な世界における表現を学習する。
この能力に動機づけられ、多数の動くオブジェクトを含む複雑なシーンの動画ストリームに直接デプロイ可能な、新しい自己教師付き学習表現フレームワークを提案する。
本フレームワークは,現在のフレームの特徴にフロー変換を適用することで,ネットワークが他のフレームの特徴を予測することを奨励する,単純なフロー均等目的を特徴とする。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出ベンチマークの読み出し実験は、simclrやbyolを含む以前の最先端メソッドから得られた表現を上回ることができることを示している。
関連論文リスト
- Transforming Static Images Using Generative Models for Video Salient Object Detection [15.701293552584863]
本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。
この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。
我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-21T09:41:33Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - On the robustness of self-supervised representations for multi-view
object classification [0.0]
インスタンス識別の目的に基づく自己教師型表現は、オブジェクトの視点や視点の変化に対してより堅牢なオブジェクトの表現に繋がることを示す。
自己監督型表現は、オブジェクトの視点に対してより堅牢であり、新しい視点からオブジェクトの認識を促進するオブジェクトに関するより関連する情報をエンコードしているように見える。
論文 参考訳(メタデータ) (2022-07-27T17:24:55Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z) - Video Representation Learning by Recognizing Temporal Transformations [37.59322456034611]
本研究では,モーションダイナミクスの変化に応答するビデオの表現を学習するための,新たな自己教師型学習手法を提案する。
人間のアノテーションを使わずに正確な動きの学習を促進するために、ニューラルネットワークを訓練し、その時間的に変換されたバージョンから映像シーケンスを識別する。
本実験により,提案手法を用いてトレーニングしたネットワークは,動作認識のための転送性能の向上を図った。
論文 参考訳(メタデータ) (2020-07-21T11:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。