論文の概要: A Light Touch Approach to Teaching Transformers Multi-view Geometry
- arxiv url: http://arxiv.org/abs/2211.15107v2
- Date: Sun, 2 Apr 2023 12:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:02:25.289709
- Title: A Light Touch Approach to Teaching Transformers Multi-view Geometry
- Title(参考訳): 光タッチによるトランスフォーマーの多視点幾何学教育
- Authors: Yash Bhalgat, Joao F. Henriques, Andrew Zisserman
- Abstract要約: 視覚変換器の多視点幾何学習を支援する「ライトタッチ」手法を提案する。
本研究では,トランスフォーマーのクロスアテンションマップの導出にエピポーラ線を用いる。
従来の方法とは異なり、我々の提案ではテスト時にカメラのポーズ情報を必要としない。
- 参考スコア(独自算出の注目度): 80.35521056416242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are powerful visual learners, in large part due to their
conspicuous lack of manually-specified priors. This flexibility can be
problematic in tasks that involve multiple-view geometry, due to the
near-infinite possible variations in 3D shapes and viewpoints (requiring
flexibility), and the precise nature of projective geometry (obeying rigid
laws). To resolve this conundrum, we propose a "light touch" approach, guiding
visual Transformers to learn multiple-view geometry but allowing them to break
free when needed. We achieve this by using epipolar lines to guide the
Transformer's cross-attention maps, penalizing attention values outside the
epipolar lines and encouraging higher attention along these lines since they
contain geometrically plausible matches. Unlike previous methods, our proposal
does not require any camera pose information at test-time. We focus on
pose-invariant object instance retrieval, where standard Transformer networks
struggle, due to the large differences in viewpoint between query and retrieved
images. Experimentally, our method outperforms state-of-the-art approaches at
object retrieval, without needing pose information at test-time.
- Abstract(参考訳): トランスフォーマーは強力な視覚的学習者であり、多くの場合、手動で特定された事前情報がないためである。
この柔軟性は、3次元形状と視点のほぼ無限のバリエーション(柔軟性が必要)と射影幾何学の正確な性質(剛性の法則に従えば)のため、多視点幾何学に関わるタスクにおいて問題となる。
この混乱を解決するために,視覚トランスフォーマーに多視点幾何学を学ぶように誘導する「ライトタッチ」アプローチを提案する。
我々は、エピポーラ線を用いてトランスフォーマーのクロスアテンションマップを誘導し、エピポーラ線外の注意値をペナルティ化し、それらの線に沿って高い注意を喚起する。
従来の方法とは異なり、テスト時にカメラのポーズ情報を必要としない。
検索画像と検索画像の視点の違いが大きいため,標準的なトランスフォーマーネットワークが苦労する,ポーズ不変オブジェクトインスタンス検索に注目する。
提案手法は,テスト時にポーズ情報を必要とせず,オブジェクト検索における最先端の手法よりも優れている。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - SuperPrimitive: Scene Reconstruction at a Primitive Level [23.934492494774116]
共同カメラのポーズと画像やモノクロビデオからの密度の高い幾何学的推定は依然として難しい問題である。
多くの高密度増分再構成システムは、画像画素を直接操作し、多視点幾何学的手がかりを用いて3次元位置を解く。
我々はスーパープリミティブ(SuperPrimitive)と呼ばれる新しいイメージ表現でこの問題に対処する。
論文 参考訳(メタデータ) (2023-12-10T13:44:03Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Geometry-biased Transformers for Novel View Synthesis [36.11342728319563]
入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
論文 参考訳(メタデータ) (2023-01-11T18:59:56Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。