論文の概要: FastPose-ViT: A Vision Transformer for Real-Time Spacecraft Pose Estimation
- arxiv url: http://arxiv.org/abs/2512.09792v1
- Date: Wed, 10 Dec 2025 16:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.58917
- Title: FastPose-ViT: A Vision Transformer for Real-Time Spacecraft Pose Estimation
- Title(参考訳): FastPose-ViT - リアルタイム宇宙空間空間推定のための視覚変換器
- Authors: Pierre Ancey, Andrew Price, Saqib Javed, Mathieu Salzmann,
- Abstract要約: 単一の画像から宇宙船の6自由度ポーズを推定することは、軌道内サービシングや宇宙ゴミの除去といった自律的な操作には不可欠である。
視覚変換器(ViT)をベースとしたアーキテクチャであるFastPose-ViTを提案する。
提案手法は,対象境界ボックスから抽出した画像を処理し,これらの局所化予測をフルイメージスケールにマッピングする,新しい数学的フォーマリズムを導入する。
- 参考スコア(独自算出の注目度): 43.11840324722107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the 6-degrees-of-freedom (6DoF) pose of a spacecraft from a single image is critical for autonomous operations like in-orbit servicing and space debris removal. Existing state-of-the-art methods often rely on iterative Perspective-n-Point (PnP)-based algorithms, which are computationally intensive and ill-suited for real-time deployment on resource-constrained edge devices. To overcome these limitations, we propose FastPose-ViT, a Vision Transformer (ViT)-based architecture that directly regresses the 6DoF pose. Our approach processes cropped images from object bounding boxes and introduces a novel mathematical formalism to map these localized predictions back to the full-image scale. This formalism is derived from the principles of projective geometry and the concept of "apparent rotation", where the model predicts an apparent rotation matrix that is then corrected to find the true orientation. We demonstrate that our method outperforms other non-PnP strategies and achieves performance competitive with state-of-the-art PnP-based techniques on the SPEED dataset. Furthermore, we validate our model's suitability for real-world space missions by quantizing it and deploying it on power-constrained edge hardware. On the NVIDIA Jetson Orin Nano, our end-to-end pipeline achieves a latency of ~75 ms per frame under sequential execution, and a non-blocking throughput of up to 33 FPS when stages are scheduled concurrently.
- Abstract(参考訳): 衛星の6自由度(6DoF)の姿勢を1枚の画像から推定することは、軌道内サービシングや宇宙ゴミの除去といった自律的な操作に不可欠である。
既存の最先端の手法は、しばしば資源制約されたエッジデバイスにリアルタイムに配置するのに不適な計算集約型のPnPベースのアルゴリズムに頼っている。
これらの制限を克服するために,視覚変換器(ViT)をベースとしたアーキテクチャであるFastPose-ViTを提案する。
提案手法は,対象境界ボックスから抽出した画像を処理し,これらの局所化予測をフルイメージスケールにマッピングする,新しい数学的フォーマリズムを導入する。
この形式主義は射影幾何学の原理と「透明な回転」の概念から派生し、モデルが真の向きを見つけるために修正された見かけの回転行列を予測する。
我々は,本手法が他のPnP戦略より優れており,SPEEDデータセット上での最先端のPnP技術と競合する性能を実現することを実証した。
さらに,実世界の宇宙ミッションに対するモデルの適合性を,量子化して,電力制約のあるエッジハードウェアに展開することで検証する。
NVIDIA Jetson Orin Nanoでは、逐次実行時に1フレームあたり約75msのレイテンシを実現し、ステージの同時スケジュール時に最大33FPSのノンブロッキングスループットを実現しています。
関連論文リスト
- FastBEV++: Fast by Algorithm, Deployable by Design [5.339716421285263]
本稿では,最新のパフォーマンスと車載デプロイメントのトラクタビリティを両立させるフレームワークであるFastBEV++を紹介する。
モノリシックなプロジェクションを標準のIndex-Gather-Reshapeパイプラインに分解する新しいビューパラダイムを通じて、"Deployable by Design"の原則を実現する。
論文 参考訳(メタデータ) (2025-12-09T04:37:46Z) - SMF-VO: Direct Ego-Motion Estimation via Sparse Motion Fields [4.710825549574638]
本稿では,Sparse Motion Field Visual Odometry (SMF-VO)を紹介した。
提案手法では,視線速度と視線速度を直接推定し,明示的なポーズ推定や高価なランドマーク追跡の必要性を回避している。
我々の研究は、従来の方法に代わるスケーラブルで効率的な代替手段を確立し、モバイルロボティクスやウェアラブルデバイスに非常に適している。
論文 参考訳(メタデータ) (2025-11-12T07:47:22Z) - Trace Anything: Representing Any Video in 4D via Trajectory Fields [98.85848134960172]
軌道場 (Trajectory Field) は、各フレーム内の各ピクセルに時間の連続した3次元軌跡関数を割り当てる密集写像である。
我々は,1つのフィードフォワードパスで軌道場全体を予測するニューラルネットワークであるTrace Anythingを紹介する。
私たちは、新しいプラットフォームからのデータを含む大規模な4Dデータに基づいて、Trace Anythingモデルをトレーニングしました。
論文 参考訳(メタデータ) (2025-10-15T17:59:04Z) - Motion Aware ViT-based Framework for Monocular 6-DoF Spacecraft Pose Estimation [14.875896480287631]
6-DoFのポーズ推定は、複数の宇宙船のミッションにおいて重要な役割を果たす。
既存のポーズ推定アプローチのほとんどは、静的なキーポイントローカライゼーションを持つ単一イメージに依存している。
人間のポーズ推定から宇宙船ポーズ推定への深層学習の枠組みを適用する。
論文 参考訳(メタデータ) (2025-09-07T10:15:55Z) - Sparse Color-Code Net: Real-Time RGB-Based 6D Object Pose Estimation on Edge Devices [2.3281513013731145]
提案するColor-Code Net (SCCN) は,この要件に対処する明確かつ簡潔なパイプライン設計を具現化したものである。
SCCNはRGB画像中の対象オブジェクトに対して画素レベルの予測を行い、パースペクティブ-n-Pointプロセスの高速化に必須なオブジェクト幾何学的特徴の空間性を利用する。
特に、ベンチマークLINEMODデータセットとOcclusionMODデータセットで、19フレーム/秒(FPS)と6FPSの見積率を実現している。
論文 参考訳(メタデータ) (2024-06-05T06:21:48Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。