論文の概要: CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion
- arxiv url: http://arxiv.org/abs/2210.10716v1
- Date: Wed, 19 Oct 2022 16:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:56:02.914367
- Title: CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion
- Title(参考訳): CroCo: クロスビューコンプリートによる3次元視覚タスクのための自己監督型事前トレーニング
- Authors: Philippe Weinzaepfel, Vincent Leroy, Thomas Lucas, Romain Br\'egier,
Yohann Cabon, Vaibhav Arora, Leonid Antsfeld, Boris Chidlovskii, Gabriela
Csurka, J\'er\^ome Revaud
- Abstract要約: Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 20.121597331207276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Image Modeling (MIM) has recently been established as a potent
pre-training paradigm. A pretext task is constructed by masking patches in an
input image, and this masked content is then predicted by a neural network
using visible patches as sole input. This pre-training leads to
state-of-the-art performance when finetuned for high-level semantic tasks, e.g.
image classification and object detection. In this paper we instead seek to
learn representations that transfer well to a wide variety of 3D vision and
lower-level geometric downstream tasks, such as depth prediction or optical
flow estimation. Inspired by MIM, we propose an unsupervised representation
learning task trained from pairs of images showing the same scene from
different viewpoints. More precisely, we propose the pretext task of cross-view
completion where the first input image is partially masked, and this masked
content has to be reconstructed from the visible content and the second image.
In single-view MIM, the masked content often cannot be inferred precisely from
the visible portion only, so the model learns to act as a prior influenced by
high-level semantics. In contrast, this ambiguity can be resolved with
cross-view completion from the second unmasked image, on the condition that the
model is able to understand the spatial relationship between the two images.
Our experiments show that our pretext task leads to significantly improved
performance for monocular 3D vision downstream tasks such as depth estimation.
In addition, our model can be directly applied to binocular downstream tasks
like optical flow or relative camera pose estimation, for which we obtain
competitive results without bells and whistles, i.e., using a generic
architecture without any task-specific design.
- Abstract(参考訳): Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
プリテキストタスクは、入力画像中のパッチをマスキングして構築され、このマスキング内容は、可視パッチを単独の入力としてニューラルネットワークにより予測される。
この事前トレーニングは、画像分類やオブジェクト検出など、高レベルのセマンティックタスクのために微調整された場合、最先端のパフォーマンスをもたらす。
本稿では,その代わりに,深度予測や光流量推定など,様々な3次元視覚や低レベルな幾何学的下流課題にうまく移行する表現を学習することを目指す。
MIMに触発されて、異なる視点から同じシーンを示す画像のペアから訓練された教師なし表現学習タスクを提案する。
より正確には、第1の入力画像が部分的にマスクされ、このマスクコンテンツが可視コンテンツと第2の画像から再構築されなければならない、クロスビュー補完のプリテキストタスクを提案する。
シングルビューMIMでは、マスクされたコンテンツは可視部分のみから正確に推測できないことが多いため、高レベルのセマンティクスに影響された事前の動作としてモデルが学習する。
対照的に、この曖昧さは、モデルが2つの画像間の空間的関係を理解できることを条件として、第2の未表示画像からのクロスビュー補完によって解決することができる。
実験の結果,プレテキストタスクは深度推定などの単眼3次元視覚下流タスクの性能を著しく向上させることがわかった。
さらに,本モデルは,光学フローや相対カメラポーズ推定などの両眼下流タスクに直接適用可能であり,タスク固有の設計を伴わない汎用アーキテクチャを用いて,ベルやホイッスルを使わずに競争結果を得ることができる。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。
未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。
我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T08:46:29Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Object Detection on Single Monocular Images through Canonical
Correlation Analysis [3.4722706398428493]
点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。
本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-13T05:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。