Fugu-MT 論文翻訳(概要): SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

論文の概要: SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

arxiv url: http://arxiv.org/abs/2603.09320v1
Date: Tue, 10 Mar 2026 07:52:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.13546
Title: SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation
Title（参考訳）: SpaceSense-Bench: 宇宙船の知覚と姿勢推定のための大規模マルチモーダルベンチマーク
Authors: Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan,
Abstract要約: 宇宙船認識のための大規模マルチモーダルベンチマークである textbfSpaceSense-Bench を提案する。各フレームは、タイム同期1024$times$1024 RGBイメージ、ミリ精度深度マップ、256ビームのLiDAR点雲を提供する。対象検出,2Dセマンティックセマンティックセグメンテーション,RGB-LiDAR融合による3Dポイントクラウドセグメンテーション,単眼深度推定,方向推定の5つのタスクをベンチマークし,2つの重要な発見点を同定した。
参考スコア（独自算出の注目度）: 1.0262304700896199
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Autonomous space operations such as on-orbit servicing and active debris removal demand robust part-level semantic understanding and precise relative navigation of target spacecraft, yet collecting large-scale real data in orbit remains impractical due to cost and access constraints. Existing synthetic datasets, moreover, suffer from limited target diversity, single-modality sensing, and incomplete ground-truth annotations. We present \textbf{SpaceSense-Bench}, a large-scale multi-modal benchmark for spacecraft perception encompassing 136~satellite models with approximately 70~GB of data. Each frame provides time-synchronized 1024$\times$1024 RGB images, millimeter-precision depth maps, and 256-beam LiDAR point clouds, together with dense 7-class part-level semantic labels at both the pixel and point level as well as accurate 6-DoF pose ground truth. The dataset is generated through a high-fidelity space simulation built in Unreal Engine~5 and a fully automated pipeline covering data acquisition, multi-stage quality control, and conversion to mainstream formats. We benchmark five representative tasks (object detection, 2D semantic segmentation, RGB--LiDAR fusion-based 3D point cloud segmentation, monocular depth estimation, and orientation estimation) and identify two key findings: (i)~perceiving small-scale components (\emph{e.g.}, thrusters and omni-antennas) and generalizing to entirely unseen spacecraft in a zero-shot setting remain critical bottlenecks for current methods, and (ii)~scaling up the number of training satellites yields substantial performance gains on novel targets, underscoring the value of large-scale, diverse datasets for space perception research. The dataset, code, and toolkit are publicly available at https://github.com/wuaodi/SpaceSense-Bench.
Abstract（参考訳）: 軌道上でのサービシングやアクティブデブリ除去のような自律的な宇宙活動は、部分的にのセマンティック理解とターゲット宇宙船の正確な相対航法を必要とするが、コストとアクセス制限のため、軌道上の大規模な実データ収集は実行不可能である。既存の合成データセットは、限定的なターゲットの多様性、単一モダリティセンシング、不完全な接地真実アノテーションに悩まされている。約70～GBのデータを持つ136～サテライトモデルを含む宇宙船知覚のための大規模マルチモーダルベンチマークである「textbf{SpaceSense-Bench}」を提示する。各フレームは、時間同期1024$\times$1024 RGBイメージ、ミリ精度深度マップ、256ビームのLiDARポイントクラウドを提供し、ピクセルレベルとポイントレベルの両方の高密度な7クラスのパートレベルのセマンティックラベルとともに、正確な6-DoFが真実を表現している。データセットは、Unreal Engine~5で構築された高忠実な空間シミュレーションと、データ取得、マルチステージ品質制御、メインストリームフォーマットへの変換を含む完全に自動化されたパイプラインによって生成される。 5つの代表的なタスク(オブジェクト検出、2Dセマンティックセグメンテーション、RGB-LiDAR融合による3Dポイントクラウドセグメンテーション、単眼深度推定、方向推定)をベンチマークし、2つの重要な発見点を同定する。 (i)〜小型部品(\emph{e g }、スラスタ、オムニアンテナ)を知覚し、ゼロショット設定で完全に見えない宇宙船に一般化することは、現在の手法にとって重要なボトルネックであり続けている。 (ii) トレーニング衛星の数を拡大すると、宇宙知覚研究のための大規模で多様なデータセットの価値が強調され、新しい目標に対して大きなパフォーマンス向上をもたらす。データセット、コード、ツールキットはhttps://github.com/wuaodi/SpaceSense-Bench.comで公開されている。

関連論文リスト

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence [78.1406635199656]
Holi-Spatialは、人間の介入なしに生のビデオ入力から構築された、初めて完全に自動化され、大規模で、空間対応のマルチモーダルデータセットである。 Holi-Spatial-4Mは、12K最適化された3DGSシーン、1.3Mの2Dマスク、320Kの3Dバウンディングボックス、320Kのインスタンスキャプション、1.2Mの3Dグラウンドインスタンス、1.2Mの空間QAペアを含む、最初の大規模で高品質な3Dセマンティックデータセットである。
論文参考訳（メタデータ） (2026-03-08T14:49:20Z)
SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation [63.48859753472547]
SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。 RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
論文参考訳（メタデータ） (2025-11-12T18:59:08Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
OmniUnet: A Multimodal Network for Unstructured Terrain Segmentation on Planetary Rovers Using RGB, Depth, and Thermal Imagery [0.5837061763460748]
この研究は、RGB、深さ、熱画像を用いたセマンティックセグメンテーションのためのトランスフォーマーベースのニューラルネットワークアーキテクチャであるOmniUnetを提示する。カスタム・マルチモーダル・センサー・ハウジングは3Dプリンティングを使用して開発され、マーチャン・ローバー・テストベッド・フォー・オートノミーに搭載された。このデータセットのサブセットは手動でラベル付けされ、ネットワークの教師付きトレーニングをサポートする。推論テストでは、リソース制約されたコンピュータで平均673msの予測時間を得た。
論文参考訳（メタデータ） (2025-08-01T12:23:29Z)
A large-scale, physically-based synthetic dataset for satellite pose estimation [0.0]
本稿では,ハッブル宇宙望遠鏡(HST)を対象とするDLVS3-HST-V1データセットについて述べる。データセットは、高度なリアルタイムおよびオフラインレンダリング技術を使用して生成され、高忠実度3Dモデル、ダイナミックライティング、物理的に正確な材料特性を統合する。このパイプラインは、6-DoFのポーズとキーポイントデータ、セマンティックセグメンテーション、深さ、正規マップを備えた大規模でリッチな注釈付きイメージセットの作成をサポートする。
論文参考訳（メタデータ） (2025-06-15T09:24:32Z)
Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文参考訳（メタデータ） (2025-05-07T19:37:20Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文参考訳（メタデータ） (2022-08-08T08:15:34Z)
Deep Learning for Real Time Satellite Pose Estimation on Low Power Edge TPU [58.720142291102135]
本稿では,ニューラルネットワークアーキテクチャを利用したポーズ推定ソフトウェアを提案する。我々は、低消費電力の機械学習アクセラレーターが宇宙での人工知能の活用を可能にしていることを示す。
論文参考訳（メタデータ） (2022-04-07T08:53:18Z)
A Spacecraft Dataset for Detection, Segmentation and Parts Recognition [42.27081423489484]
本稿では,宇宙船検出,インスタンスのセグメンテーション,部分認識のためのデータセットをリリースする。この研究の主な貢献は、宇宙ステーションと衛星の画像を用いたデータセットの開発である。また、データセットのベンチマークとして、オブジェクト検出やインスタンスセグメンテーションにおける最先端の手法による評価も提供する。
論文参考訳（メタデータ） (2021-06-15T14:36:56Z)
SPARK: SPAcecraft Recognition leveraging Knowledge of Space Environment [10.068428438297563]
本稿では、SPARKデータセットを新しいユニークな空間オブジェクトマルチモーダルイメージデータセットとして提案する。 SPARKデータセットは、現実的な宇宙シミュレーション環境下で生成される。 1モードあたり約150kの画像、RGBと深さ、宇宙船とデブリの11のクラスを提供する。
論文参考訳（メタデータ） (2021-04-13T07:16:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。