論文の概要: MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised
Learning of Motion and Content Features
- arxiv url: http://arxiv.org/abs/2307.12698v1
- Date: Mon, 24 Jul 2023 11:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 14:44:14.025942
- Title: MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised
Learning of Motion and Content Features
- Title(参考訳): MC-JEPA: 動作と内容の自己教師付き学習のための統合組込み予測アーキテクチャ
- Authors: Adrien Bardes, Jean Ponce, Yann LeCun
- Abstract要約: 本稿では,共有エンコーダ内での光フローとコンテンツ特徴を協調的に学習するための,共同埋め込み型予測アーキテクチャと自己教師型学習アプローチであるMC-JEPAを紹介する。
提案手法は、既存の教師なし光フローベンチマークと同等の性能を実現する。
- 参考スコア(独自算出の注目度): 34.92750644059916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning of visual representations has been focusing on
learning content features, which do not capture object motion or location, and
focus on identifying and differentiating objects in images and videos. On the
other hand, optical flow estimation is a task that does not involve
understanding the content of the images on which it is estimated. We unify the
two approaches and introduce MC-JEPA, a joint-embedding predictive architecture
and self-supervised learning approach to jointly learn optical flow and content
features within a shared encoder, demonstrating that the two associated
objectives; the optical flow estimation objective and the self-supervised
learning objective; benefit from each other and thus learn content features
that incorporate motion information. The proposed approach achieves performance
on-par with existing unsupervised optical flow benchmarks, as well as with
common self-supervised learning approaches on downstream tasks such as semantic
segmentation of images and videos.
- Abstract(参考訳): 視覚表現の自己教師付き学習は、物体の動きや位置を捉えないコンテンツの特徴を学習し、画像やビデオ中の物体の識別と識別に重点を置いている。
一方,光学的フロー推定は,推定した画像の内容の理解を伴わないタスクである。
この2つのアプローチを統一し,共有エンコーダ内で光フローとコンテンツ特徴を共同学習するための自己教師あり学習手法であるmc-jepaを導入することで,光フロー推定目標と自己教師あり学習目標という2つの目標が相互に利益をもたらし,モーション情報を含むコンテンツ特徴を学習できることを実証する。
提案手法は,既存の教師なしオプティカルフローベンチマークと同等の性能を実現するとともに,画像やビデオの意味セグメンテーションなどの下流タスクにおける自己教師あり学習手法と同等の性能を実現する。
関連論文リスト
- PooDLe: Pooled and dense self-supervised learning from naturalistic videos [32.656425302538835]
本稿では,プール表現における不変性に基づくSSL目的と高密度SSL目標とを組み合わせた新しいアプローチを提案する。
BDD100K駆動ビデオデータセットとウォーキングツアーの1対1ビデオデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-08-20T21:40:48Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Flow-guided Semi-supervised Video Object Segmentation [14.357395825753827]
半教師付きビデオオブジェクトセグメンテーションのための光フロー誘導手法を提案する。
光フローと画像から組み合わせた情報を抽出するモデルを提案する。
DAVIS 2017とYouTube-VOS 2019の実験では、光学フローから抽出した情報を元のイメージブランチに統合することで、パフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2023-01-25T10:02:31Z) - USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks [31.600708674008384]
UegSceneは、ステレオカメラ画像の奥行き、光学的流れ、エゴモーション推定を意味的に導くためのフレームワークである。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-07-15T13:25:47Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。