論文の概要: Epipolar Transformers
- arxiv url: http://arxiv.org/abs/2005.04551v1
- Date: Sun, 10 May 2020 02:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 01:57:50.390795
- Title: Epipolar Transformers
- Title(参考訳): エピポーラトランス
- Authors: Yihui He, Rui Yan, Katerina Fragkiadaki, Shoou-I Yu
- Abstract要約: 同期型および校正型マルチビューセットアップにおける3次元関節のローカライズのための一般的なアプローチは、2段階からなる。
2D検出器は、3Dでよりうまく解決できる可能性のある難問の解決に限られている。
本研究では,2次元検出器の3次元特徴を生かして2次元ポーズ推定を改善する「エピポーラ変圧器」を提案する。
- 参考スコア(独自算出の注目度): 39.98487207625999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common approach to localize 3D human joints in a synchronized and
calibrated multi-view setup consists of two-steps: (1) apply a 2D detector
separately on each view to localize joints in 2D, and (2) perform robust
triangulation on 2D detections from each view to acquire the 3D joint
locations. However, in step 1, the 2D detector is limited to solving
challenging cases which could potentially be better resolved in 3D, such as
occlusions and oblique viewing angles, purely in 2D without leveraging any 3D
information. Therefore, we propose the differentiable "epipolar transformer",
which enables the 2D detector to leverage 3D-aware features to improve 2D pose
estimation. The intuition is: given a 2D location p in the current view, we
would like to first find its corresponding point p' in a neighboring view, and
then combine the features at p' with the features at p, thus leading to a
3D-aware feature at p. Inspired by stereo matching, the epipolar transformer
leverages epipolar constraints and feature matching to approximate the features
at p'. Experiments on InterHand and Human3.6M show that our approach has
consistent improvements over the baselines. Specifically, in the condition
where no external data is used, our Human3.6M model trained with ResNet-50
backbone and image size 256 x 256 outperforms state-of-the-art by 4.23 mm and
achieves MPJPE 26.9 mm.
- Abstract(参考訳): 同期型・校正型多視点装置における3次元関節のローカライズのための一般的なアプローチは,(1)各視点に個別に2次元検出器を適用して2次元の関節をローカライズし,(2)各視点から2次元検出を堅牢に三角測量して3次元関節位置を得る,という2段階からなる。
しかし、ステップ1では、2D検出器は、3D情報を活用することなく純粋に2Dのオクルージョンや斜めの視角といった3Dでよりうまく解決できる可能性のある難解ケースの解決に限られている。
そこで本研究では,2次元検出装置が3次元認識機能を利用して2次元ポーズ推定を改善する「epipolar transformer」を提案する。
現在のビューで 2D の位置 p が与えられたとき、まずその対応する点 p' を隣のビューで見つけ、次に p' における特徴と p における特徴を組み合わせて、p における3D 対応特徴を導いたい。
ステレオマッチングにインスパイアされたエピポーラ変換器は、エピポーラ制約と特徴マッチングを利用して、p'における特徴を近似する。
InterHandとHuman3.6Mの実験は、我々のアプローチがベースラインよりも一貫して改善されていることを示している。
具体的には、外部データを使用しない場合、resnet-50バックボーンと画像サイズ256x256でトレーニングしたhuman3.6mモデルは、最先端の4.23mmを上回り、mpjpe 26.9mmを達成する。
関連論文リスト
- Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization [44.05930316729542]
本稿では,3次元点雲の大規模可視化手法EP2P-Locを提案する。
画像中の見えない3D点を除去する簡単なアルゴリズムを提案する。
このタスクで初めて、エンドツーエンドのトレーニングに差別化可能なツールを使用します。
論文 参考訳(メタデータ) (2023-09-14T07:06:36Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - TransFusion: Cross-view Fusion with Transformer for 3D Human Pose
Estimation [21.37032015978738]
マルチビュー3Dポーズ推定のためのトランスフォーマーフレームワークを提案する。
従来のマルチモーダルトランスにインスパイアされて,TransFusionと呼ばれる統一トランスフォーマーアーキテクチャを設計する。
本稿では,3次元位置情報をトランスモデルにエンコードするためのエピポーラ場の概念を提案する。
論文 参考訳(メタデータ) (2021-10-18T18:08:18Z) - Weakly-supervised Cross-view 3D Human Pose Estimation [16.045255544594625]
弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。
本手法は,最先端の性能を弱い教師付きで達成することができる。
本手法を標準ベンチマークデータセットHuman3.6Mで評価する。
論文 参考訳(メタデータ) (2021-05-23T08:16:25Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。