論文の概要: Learning Multi-Scene Absolute Pose Regression with Transformers
- arxiv url: http://arxiv.org/abs/2103.11468v1
- Date: Sun, 21 Mar 2021 19:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 09:30:40.706464
- Title: Learning Multi-Scene Absolute Pose Regression with Transformers
- Title(参考訳): トランスフォーマによる多場面の絶対ポーズ回帰学習
- Authors: Yoli Shavit, Ron Ferens, Yosi Keller
- Abstract要約: 多層パーセプトロンヘッドを備えた畳み込みバックボーンは、画像とポーズラベルで訓練され、一度に1つの参照シーンを埋め込む。
エンコーダを用いて自己アテンションでアクティベーションマップを集約するトランスフォーマーを用いて,マルチシーンの絶対カメラポーズ回帰を学習することを提案する。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価し,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回っていることを示す。
- 参考スコア(独自算出の注目度): 4.232614032390374
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Absolute camera pose regressors estimate the position and orientation of a
camera from the captured image alone. Typically, a convolutional backbone with
a multi-layer perceptron head is trained with images and pose labels to embed a
single reference scene at a time. Recently, this scheme was extended for
learning multiple scenes by replacing the MLP head with a set of fully
connected layers. In this work, we propose to learn multi-scene absolute camera
pose regression with Transformers, where encoders are used to aggregate
activation maps with self-attention and decoders transform latent features and
scenes encoding into candidate pose predictions. This mechanism allows our
model to focus on general features that are informative for localization while
embedding multiple scenes in parallel. We evaluate our method on commonly
benchmarked indoor and outdoor datasets and show that it surpasses both
multi-scene and state-of-the-art single-scene absolute pose regressors. We make
our code publicly available from here.
- Abstract(参考訳): 絶対的なカメラポーズは、キャプチャされた画像のみからカメラの位置と向きを推定する。
通常、多層パーセプトロンヘッドを持つ畳み込みバックボーンは、画像とポーズラベルで訓練され、一度に1つの参照シーンを埋め込む。
近年,MLPヘッドを全接続層に置き換えることで,複数のシーンを学習するための手法が拡張されている。
本研究では,トランスフォーマーを用いてマルチシーンの絶対カメラポーズ回帰を学習し,エンコーダを用いてアクティベーションマップを自己アテンションで集約し,デコーダは潜在特徴やシーンを候補ポーズ予測に変換する。
この機構により,複数のシーンを並列に埋め込みながら,局所化に有用な一般的な特徴に集中することができる。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価し,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回っていることを示す。
ここからコードを公開しています。
関連論文リスト
- Coarse-to-Fine Multi-Scene Pose Regression with Transformers [19.927662512903915]
多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使用してトレーニングされ、一度に単一の参照を埋め込む。
本稿では,トランスフォーマーを用いて,アクティベーションマップを自己注意で集約するためにエンコーダを使用するマルチシーン絶対カメラポーズ回帰を学習することを提案する。
提案手法は,屋内および屋外のベンチマークデータセットで評価され,マルチシーンおよび最先端の単一シーンの絶対ポーズ回帰器を超越していることが示されている。
論文 参考訳(メタデータ) (2023-08-22T20:43:31Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - BlobGAN: Spatially Disentangled Scene Representations [67.60387150586375]
本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。
我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文 参考訳(メタデータ) (2022-04-25T17:51:38Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Paying Attention to Activation Maps in Camera Pose Regression [4.232614032390374]
カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
畳み込みアクティベーションマップをシーケンシャル入力として使用するポーズ回帰のための注意に基づくアプローチを提案する。
提案手法は,現代のポーズレグレッサー方式に好適に比較し,複数のベンチマークにまたがる最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-03-21T20:10:15Z) - Do We Really Need Scene-specific Pose Encoders? [0.0]
視覚ポーズ回帰モデルは、1つの前方パスでクエリイメージからカメラポーズを推定します。
現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。
ポーズ回帰にはシーン固有のポーズエンコーダは不要であり、視覚的類似性のために訓練されたエンコーディングを代わりに使用できる。
論文 参考訳(メタデータ) (2020-12-22T13:59:52Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。