論文の概要: MVTOP: Multi-View Transformer-based Object Pose-Estimation
- arxiv url: http://arxiv.org/abs/2508.03243v1
- Date: Tue, 05 Aug 2025 09:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.880609
- Title: MVTOP: Multi-View Transformer-based Object Pose-Estimation
- Title(参考訳): MVTOP:マルチビュー変換器を用いたオブジェクトポス推定
- Authors: Lukas Ranftl, Felix Brendel, Bertram Drost, Carsten Steger,
- Abstract要約: MVTOPは,多視点剛体ポーズ推定のためのトランスフォーマーに基づく新しい手法である。
本手法では,一つの視点で,あるいは単一視点のポーズの後処理で解決できないあいまいさを解消することができる。
- 参考スコア(独自算出の注目度): 4.485458895311131
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present MVTOP, a novel transformer-based method for multi-view rigid object pose estimation. Through an early fusion of the view-specific features, our method can resolve pose ambiguities that would be impossible to solve with a single view or with a post-processing of single-view poses. MVTOP models the multi-view geometry via lines of sight that emanate from the respective camera centers. While the method assumes the camera interior and relative orientations are known for a particular scene, they can vary for each inference. This makes the method versatile. The use of the lines of sight enables MVTOP to correctly predict the correct pose with the merged multi-view information. To show the model's capabilities, we provide a synthetic data set that can only be solved with such holistic multi-view approaches since the poses in the dataset cannot be solved with just one view. Our method outperforms single-view and all existing multi-view approaches on our dataset and achieves competitive results on the YCB-V dataset. To the best of our knowledge, no holistic multi-view method exists that can resolve such pose ambiguities reliably. Our model is end-to-end trainable and does not require any additional data, e.g., depth.
- Abstract(参考訳): MVTOPは,多視点剛体ポーズ推定のためのトランスフォーマーに基づく新しい手法である。
ビュー固有の特徴を早期に融合することにより、単一のビューやシングルビューのポーズの後処理で解決できないあいまいさを解消することができる。
MVTOPは、それぞれのカメラセンターから発せられる視線を介して、多視点の幾何学をモデル化する。
この手法は、カメラの内部と相対方向が特定のシーンで知られていると仮定するが、それぞれの推論毎に異なることができる。
これにより、この方法が多用される。
視線を利用すると、MVTOPはマージされた多視点情報で正しいポーズを正確に予測できる。
モデルの性能を示すために、データセット内のポーズは1つのビューだけでは解決できないため、このような総合的なマルチビューアプローチでのみ解決できる合成データセットを提供する。
提案手法は,データセット上での単一ビューおよび既存マルチビューのアプローチよりも優れており,YCB-Vデータセット上での競合的な結果が得られる。
我々の知る限りでは、そのようなポーズの曖昧さを確実に解決できる全体論的多視点法は存在しない。
私たちのモデルはエンドツーエンドのトレーニングが可能で、例えば深さなどの追加データを必要としない。
関連論文リスト
- One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。
本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。
複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文 参考訳(メタデータ) (2025-05-07T03:54:59Z) - A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Human Mesh Recovery from Arbitrary Multi-view Images [57.969696744428475]
任意の多視点画像からU-HMR(Unified Human Mesh Recovery)を分離・征服する枠組みを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビューフュージョン(AVF)の2つの主要コンポーネントから構成されている。
我々は、Human3.6M、MPI-INF-3DHP、TotalCaptureの3つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-03-19T04:47:56Z) - MVMO: A Multi-Object Dataset for Wide Baseline Multi-View Semantic
Segmentation [34.88648947680952]
MVMO (Multi-View, Multi-Object dataset): 10の異なるクラスのランダムに配置されたオブジェクトを含む116,000のシーンからなる合成データセット。
MVMOは、すべてのビューに対するセマンティックセグメンテーション基底真理とともに、フォトリアリスティックでパストレーシングされた画像レンダリングを含む。
論文 参考訳(メタデータ) (2022-05-30T22:37:43Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Multiview Detection with Shadow Transformer (and View-Coherent Data
Augmentation) [25.598840284457548]
本稿では,マルチビュー情報を集約するシャドートランスを用いた新しいマルチビュー検出器MVDeTrを提案する。
畳み込みとは異なり、シャドートランスフォーマーは様々な位置やカメラで様々な影のような歪みに対処する。
本報告では,提案方式による最新の精度について報告する。
論文 参考訳(メタデータ) (2021-08-12T17:59:02Z) - Learning Implicit 3D Representations of Dressed Humans from Sparse Views [31.584157304372425]
本論文では,スパースなカメラビューから服姿の人間の暗黙的な3D表現を学習するエンドツーエンドのアプローチを提案する。
実験では, 提案手法が, 定量的・定性的に標準データに対する技術水準を上回っていることを示した。
論文 参考訳(メタデータ) (2021-04-16T10:20:26Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view
Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。
異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。
6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-14T12:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。