論文の概要: Improved Cross-view Completion Pre-training for Stereo Matching
- arxiv url: http://arxiv.org/abs/2211.10408v1
- Date: Fri, 18 Nov 2022 18:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:19:22.736807
- Title: Improved Cross-view Completion Pre-training for Stereo Matching
- Title(参考訳): ステレオマッチングのためのクロスビュー補完事前学習の改善
- Authors: Philippe Weinzaepfel, Vaibhav Arora, Yohann Cabon, Thomas Lucas,
Romain Br\'egier, Vincent Leroy, Gabriela Csurka, Leonid Antsfeld, Boris
Chidlovskii, J\'er\^ome Revaud
- Abstract要約: 自己教師付き事前学習法は、ステレオマッチングのような密集した幾何学的視覚タスクに対して、まだ完全には提供されていない。
我々は,従来のタスク固有の手法を使わずに,ディープステレオマッチングの最先端結果に到達できることを初めて示す。
- 参考スコア(独自算出の注目度): 20.121597331207273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive performance for high-level downstream tasks,
self-supervised pre-training methods have not yet fully delivered on dense
geometric vision tasks such as stereo matching. The application of
self-supervised learning concepts, such as instance discrimination or masked
image modeling, to geometric tasks is an active area of research. In this work
we build on the recent cross-view completion framework: this variation of
masked image modeling leverages a second view from the same scene, which is
well suited for binocular downstream tasks. However, the applicability of this
concept has so far been limited in at least two ways: (a) by the difficulty of
collecting real-world image pairs - in practice only synthetic data had been
used - and (b) by the lack of generalization of vanilla transformers to dense
downstream tasks for which relative position is more meaningful than absolute
position. We explore three avenues of improvement: first, we introduce a method
to collect suitable real-world image pairs at large scale. Second, we
experiment with relative positional embeddings and demonstrate that they enable
vision transformers to perform substantially better. Third, we scale up vision
transformer based cross-completion architectures, which is made possible by the
use of large amounts of data. With these improvements, we show for the first
time that state-of-the-art results on deep stereo matching can be reached
without using any standard task-specific techniques like correlation volume,
iterative estimation or multi-scale reasoning.
- Abstract(参考訳): 高レベルダウンストリームタスクのパフォーマンスは印象的だが、自己教師付き事前学習法はステレオマッチングのような密集した幾何学的ビジョンタスクではまだ完全には提供されていない。
インスタンス識別やマスク画像モデリングといった自己教師あり学習の概念を幾何学的タスクに適用することは、研究の活発な領域である。
今回の作業では、最新のクロスビュー補完フレームワーク上に構築されています。 マスク画像モデリングのこのバリエーションは、双眼鏡のダウンストリームタスクに適した、同じシーンからのセカンドビューを活用します。
しかし、この概念の適用性は少なくとも2つの方法で制限されている。
(a)実世界の画像ペアの収集が困難であったこと(実際には合成データのみ使用されていたこと)
(b)絶対位置よりも相対位置の方が有意義な密集した下流タスクへのバニラ変圧器の一般化の欠如。
まず,適切な実世界の画像ペアを大規模に収集する手法を提案する。
第2に,相対的な位置埋め込みを実験し,視覚トランスフォーマーの性能が大幅に向上することを示す。
第3に、大量のデータを使用することで実現可能な、視覚トランスフォーマーベースのクロスコンプリートアーキテクチャをスケールアップする。
これらの改善により,相関ボリュームや反復推定,マルチスケール推論といった標準的なタスク固有の手法を使わずに,ディープステレオマッチングに関する最先端の成果に到達できることを初めて示す。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - A Visual Navigation Perspective for Category-Level Object Pose
Estimation [41.60364392204057]
本稿では,単一の単眼画像に基づくカテゴリレベルのオブジェクトポーズ推定について検討する。
ポーズ認識生成モデルの最近の進歩は、分析バイシンセシスを用いてこの課題に対処する方法を舗装している。
論文 参考訳(メタデータ) (2022-03-25T10:57:37Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。