論文の概要: Coarse-to-Fine Multi-Scene Pose Regression with Transformers
- arxiv url: http://arxiv.org/abs/2308.11783v1
- Date: Tue, 22 Aug 2023 20:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:47:37.419201
- Title: Coarse-to-Fine Multi-Scene Pose Regression with Transformers
- Title(参考訳): 変圧器を用いた多段多段回帰
- Authors: Yoli Shavit, Ron Ferens, Yosi Keller
- Abstract要約: 多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使用してトレーニングされ、一度に単一の参照を埋め込む。
本稿では,トランスフォーマーを用いて,アクティベーションマップを自己注意で集約するためにエンコーダを使用するマルチシーン絶対カメラポーズ回帰を学習することを提案する。
提案手法は,屋内および屋外のベンチマークデータセットで評価され,マルチシーンおよび最先端の単一シーンの絶対ポーズ回帰器を超越していることが示されている。
- 参考スコア(独自算出の注目度): 19.927662512903915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Absolute camera pose regressors estimate the position and orientation of a
camera given the captured image alone. Typically, a convolutional backbone with
a multi-layer perceptron (MLP) head is trained using images and pose labels to
embed a single reference scene at a time. Recently, this scheme was extended to
learn multiple scenes by replacing the MLP head with a set of fully connected
layers. In this work, we propose to learn multi-scene absolute camera pose
regression with Transformers, where encoders are used to aggregate activation
maps with self-attention and decoders transform latent features and scenes
encoding into pose predictions. This allows our model to focus on general
features that are informative for localization, while embedding multiple scenes
in parallel. We extend our previous MS-Transformer approach
\cite{shavit2021learning} by introducing a mixed classification-regression
architecture that improves the localization accuracy. Our method is evaluated
on commonly benchmark indoor and outdoor datasets and has been shown to exceed
both multi-scene and state-of-the-art single-scene absolute pose regressors.
- Abstract(参考訳): 絶対的なカメラポーズレグレッシャは、キャプチャされた画像だけでカメラの位置と向きを推定する。
通常、多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使って訓練され、一度に単一の参照シーンを埋め込む。
近年,MLPヘッドを全接続層に置き換えることで,複数のシーンを学習できるように拡張されている。
本研究では,トランスフォーマーを用いてマルチシーンの絶対カメラポーズの回帰を学習し,エンコーダを用いてアクティベーションマップを自己アテンションで集約し,デコーダが潜在特徴やシーンのエンコーディングをポーズ予測に変換することを提案する。
これにより、複数のシーンを並列に埋め込みながら、ローカライゼーションに有用な一般的な機能に集中することが可能になります。
我々は,従来のMS-Transformerアプローチであるcite{shavit2021learning}を拡張し,局所化精度を向上する混合分類回帰アーキテクチャを導入する。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価され,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回った。
関連論文リスト
- NViST: In the Wild New View Synthesis from a Single Image with Transformers [8.361847255300846]
単一画像からの効率的なノベルビュー合成のためのトランスフォーマーベースモデルであるNViSTを提案する。
NViSTは、カジュアルにキャプチャされた現実世界のビデオの大規模なデータセットであるMVImgNetでトレーニングされている。
MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - Pose-Free Generalizable Rendering Transformer [72.47072706742065]
PF-GRTは、Generalizable Rendering Transformer用のPose-Freeフレームワークである。
PF-GRTは局所相対座標系を用いてパラメータ化される。
データセットのゼロショットレンダリングによる実験では、フォトリアリスティック画像の生成において、優れた品質が得られることが明らかになった。
論文 参考訳(メタデータ) (2023-10-05T17:24:36Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Paying Attention to Activation Maps in Camera Pose Regression [4.232614032390374]
カメラポーズ回帰手法は、クエリ画像に単一のフォワードパスを適用してカメラポーズを推定する。
畳み込みアクティベーションマップをシーケンシャル入力として使用するポーズ回帰のための注意に基づくアプローチを提案する。
提案手法は,現代のポーズレグレッサー方式に好適に比較し,複数のベンチマークにまたがる最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-03-21T20:10:15Z) - Learning Multi-Scene Absolute Pose Regression with Transformers [4.232614032390374]
多層パーセプトロンヘッドを備えた畳み込みバックボーンは、画像とポーズラベルで訓練され、一度に1つの参照シーンを埋め込む。
エンコーダを用いて自己アテンションでアクティベーションマップを集約するトランスフォーマーを用いて,マルチシーンの絶対カメラポーズ回帰を学習することを提案する。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価し,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-21T19:21:44Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Do We Really Need Scene-specific Pose Encoders? [0.0]
視覚ポーズ回帰モデルは、1つの前方パスでクエリイメージからカメラポーズを推定します。
現在のモデルは、シーン毎にトレーニングされた深層畳み込みネットワークを使用して、画像からポーズエンコーディングを学ぶ。
ポーズ回帰にはシーン固有のポーズエンコーダは不要であり、視覚的類似性のために訓練されたエンコーディングを代わりに使用できる。
論文 参考訳(メタデータ) (2020-12-22T13:59:52Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。