論文の概要: CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow
- arxiv url: http://arxiv.org/abs/2211.10408v3
- Date: Fri, 18 Aug 2023 15:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 01:05:19.462928
- Title: CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow
- Title(参考訳): CroCo v2: ステレオマッチングとオプティカルフローのためのクロスビューコンプリート事前トレーニングの改善
- Authors: Philippe Weinzaepfel, Thomas Lucas, Vincent Leroy, Yohann Cabon,
Vaibhav Arora, Romain Br\'egier, Gabriela Csurka, Leonid Antsfeld, Boris
Chidlovskii, J\'er\^ome Revaud
- Abstract要約: 自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
- 参考スコア(独自算出の注目度): 22.161967080759993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive performance for high-level downstream tasks,
self-supervised pre-training methods have not yet fully delivered on dense
geometric vision tasks such as stereo matching or optical flow. The application
of self-supervised concepts, such as instance discrimination or masked image
modeling, to geometric tasks is an active area of research. In this work, we
build on the recent cross-view completion framework, a variation of masked
image modeling that leverages a second view from the same scene which makes it
well suited for binocular downstream tasks. The applicability of this concept
has so far been limited in at least two ways: (a) by the difficulty of
collecting real-world image pairs -- in practice only synthetic data have been
used -- and (b) by the lack of generalization of vanilla transformers to dense
downstream tasks for which relative position is more meaningful than absolute
position. We explore three avenues of improvement. First, we introduce a method
to collect suitable real-world image pairs at large scale. Second, we
experiment with relative positional embeddings and show that they enable vision
transformers to perform substantially better. Third, we scale up vision
transformer based cross-completion architectures, which is made possible by the
use of large amounts of data. With these improvements, we show for the first
time that state-of-the-art results on stereo matching and optical flow can be
reached without using any classical task-specific techniques like correlation
volume, iterative estimation, image warping or multi-scale reasoning, thus
paving the way towards universal vision models.
- Abstract(参考訳): 高レベル下流タスクの優れた性能にもかかわらず、自己教師付き事前訓練方法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクに対してまだ完全には提供されていない。
インスタンス識別やマスク画像モデリングといった自己監督的な概念を幾何学的タスクに適用することは、研究の活発な領域である。
本研究では,同一シーンからの2番目のビューを利用したマスク画像モデリングの変種である,最近のcross-view completion framework(クロスビュー補完フレームワーク)をベースとする。
この概念の適用性は、少なくとも2つの方法で制限されている。
(a)実世界のイメージペアの収集が困難で、実際には合成データのみが使用されていること、及び
(b)絶対位置よりも相対位置の方が有意義な密集した下流タスクへのバニラ変圧器の一般化の欠如。
改善の3つの道を探る。
まず,適切な実世界の画像ペアを大規模に収集する手法を提案する。
第2に,相対的な位置埋め込みを実験し,視覚トランスフォーマーの性能が大幅に向上することを示す。
第3に、大量のデータを使用することで実現可能な、視覚トランスフォーマーベースのクロスコンプリートアーキテクチャをスケールアップする。
これらの改善により、相関ボリューム、反復推定、画像ウォーピング、マルチスケール推論といった従来のタスク特化手法を使わずに、ステレオマッチングとオプティカルフローに関する最先端の成果に到達できることが初めて示され、それによって普遍的なビジョンモデルへの道が開けた。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - A Visual Navigation Perspective for Category-Level Object Pose
Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文 参考訳(メタデータ) (2022-03-25T10:57:37Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。