論文の概要: SenseShift6D: Multimodal RGB-D Benchmarking for Robust 6D Pose Estimation across Environment and Sensor Variations
- arxiv url: http://arxiv.org/abs/2507.05751v1
- Date: Tue, 08 Jul 2025 07:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.735534
- Title: SenseShift6D: Multimodal RGB-D Benchmarking for Robust 6D Pose Estimation across Environment and Sensor Variations
- Title(参考訳): SenseShift6D:環境とセンサの変動を考慮したロバスト6次元空間推定のためのマルチモーダルRGB-Dベンチマーク
- Authors: Yegyu Han, Taegyoon Yoon, Dayeon Woo, Sojeong Kim, Hyung-Sin Kim,
- Abstract要約: SenseShift6Dは、13の露光、9のRGBゲイン、自動露光、4の深度撮影モード、5の照明レベルを物理的に掃除する最初のRGB-Dデータセットである。
3つの一般的な家庭用オブジェクト(スプレー、プリングル、ブリキケース)に対して、101.9kのRGBと10kの深度画像を取得し、オブジェクトのポーズごとに1,380のユニークなセンサー光順列を提供する。
我々のデータセット上での最先端モデルによる実験により、テスト時間中にセンサー制御を適用することで、デジタルデータ拡張よりもパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 1.8350044465969415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances on 6D object-pose estimation has achieved high performance on representative benchmarks such as LM-O, YCB-V, and T-Less. However, these datasets were captured under fixed illumination and camera settings, leaving the impact of real-world variations in illumination, exposure, gain or depth-sensor mode - and the potential of test-time sensor control to mitigate such variations - largely unexplored. To bridge this gap, we introduce SenseShift6D, the first RGB-D dataset that physically sweeps 13 RGB exposures, 9 RGB gains, auto-exposure, 4 depth-capture modes, and 5 illumination levels. For three common household objects (spray, pringles, and tincase), we acquire 101.9k RGB and 10k depth images, which can provide 1,380 unique sensor-lighting permutations per object pose. Experiments with state-of-the-art models on our dataset show that applying sensor control during test-time induces greater performance improvement over digital data augmentation, achieving performance comparable to or better than costly increases in real-world training data quantity and diversity. Adapting either RGB or depth sensors individually is effective, while jointly adapting multimodal RGB-D configurations yields even greater improvements. SenseShift6D extends the 6D-pose evaluation paradigm from data-centered to sensor-aware robustness, laying a foundation for adaptive, self-tuning perception systems capable of operating robustly in uncertain real-world environments. Our dataset is available at: huggingface.co/datasets/Yegyu/SenseShift6D Associated scripts can be found at: github.com/yegyu-han/SenseShift6D
- Abstract(参考訳): 近年, LM-O, YCB-V, T-Lessなどの代表的なベンチマークにおいて, 6次元対象物推定の進歩が達成されている。
しかし、これらのデータセットは固定照明とカメラ設定の下で撮影され、照明、露光、ゲイン、深度センサーモードの実際のバリエーションの影響と、そのようなバリエーションを緩和するためのテストタイムセンサー制御の可能性は、ほとんど探索されていない。
このギャップを埋めるために、最初のRGB-DデータセットであるSenseShift6Dを紹介します。
3つの一般的な家庭用オブジェクト(スプレー、プリングル、ブリキケース)に対して、101.9kのRGBと10kの深度画像を取得し、オブジェクトのポーズごとに1,380のユニークなセンサー光順列を提供する。
我々のデータセット上での最先端モデルによる実験では、テスト時間中にセンサー制御を適用することで、デジタルデータ拡張よりもパフォーマンスが向上し、実世界のトレーニングデータ量と多様性のコストの増大に匹敵するパフォーマンスを達成することが示されている。
RGBまたは深度センサーを個別に適応することは効果的であるが、マルチモーダルなRGB-D構成を共同で適応することでさらに改善される。
SenseShift6Dは6D-pose評価パラダイムを、データ中心からセンサー対応の堅牢性へと拡張し、不確実な現実世界環境で堅牢に動作可能な適応型自己調整型知覚システムの基礎を築いた。
huggingface.co/datasets/Yegyu/SenseShift6D 関連スクリプトは、github.com/Yegyu-han/SenseShift6Dで参照できます。
関連論文リスト
- MSSIDD: A Benchmark for Multi-Sensor Denoising [55.41612200877861]
我々は,マルチセンサSIDDデータセットという新しいベンチマークを導入する。これは,認知モデルのセンサ伝達性を評価するために設計された,最初の生ドメインデータセットである。
そこで本研究では,センサに不変な特徴を認知モデルで学習することのできるセンサ一貫性トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T13:32:59Z) - Multimodal Object Detection using Depth and Image Data for Manufacturing Parts [1.0819408603463427]
本研究では,赤緑色(RGB)カメラと3Dポイントクラウドセンサを組み合わせたマルチセンサシステムを提案する。
RGBと深度データの両方を処理するために,新しいマルチモーダルオブジェクト検出法を開発した。
その結果、マルチモーダルモデルは、確立されたオブジェクト検出基準に基づいて、深さのみのベースラインとRGBのみのベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-11-13T22:43:15Z) - DIDLM: A SLAM Dataset for Difficult Scenarios Featuring Infrared, Depth Cameras, LIDAR, 4D Radar, and Others under Adverse Weather, Low Light Conditions, and Rough Roads [20.600516423425688]
積雪天候,雨天,夜間条件,スピードバンプ,荒地など,困難なシナリオをカバーするマルチセンサデータセットを提案する。
このデータセットには、4Dミリ波レーダー、赤外線カメラ、深度カメラなどの極端な状況に利用されないセンサーと、3D LiDAR、RGBカメラ、GPS、IMUが含まれる。
自律走行と地上ロボットの両方のアプリケーションをサポートし、構造化された地形と半構造化された地形をカバーする信頼性の高いGPS/INS地上真実データを提供する。
論文 参考訳(メタデータ) (2024-04-15T09:49:33Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - RGB-based Category-level Object Pose Estimation via Decoupled Metric
Scale Recovery [72.13154206106259]
本研究では、6次元のポーズとサイズ推定を分離し、不完全なスケールが剛性変換に与える影響を緩和するパイプラインを提案する。
具体的には,事前学習した単分子推定器を用いて局所的な幾何学的情報を抽出する。
別個のブランチは、カテゴリレベルの統計に基づいてオブジェクトのメートル法スケールを直接復元するように設計されている。
論文 参考訳(メタデータ) (2023-09-19T02:20:26Z) - FloatingFusion: Depth from ToF and Image-stabilized Stereo Cameras [37.812681878193914]
スマートフォンには、飛行時間(ToF)深度センサーと複数のカラーカメラを備えたマルチモーダルカメラシステムが搭載されている。
高精度な高解像度の深度を作り出すことは、ToFセンサーの低解像度と限られた能動照明力のために依然として困難である。
本稿では,1枚のスナップショットからカメラパラメータを推定できる高密度2D/3Dマッチングに基づく自動校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T09:57:09Z) - Learning Online Multi-Sensor Depth Fusion [100.84519175539378]
SenFuNetは、センサ固有のノイズと外れ値統計を学習するディープフュージョンアプローチである。
実世界のCoRBSとScene3Dデータセットで様々なセンサーの組み合わせで実験を行う。
論文 参考訳(メタデータ) (2022-04-07T10:45:32Z) - Multi-sensor large-scale dataset for multi-view 3D reconstruction [63.59401680137808]
マルチビュー3次元表面再構成のための新しいマルチセンサデータセットを提案する。
スマートフォン、Intel RealSense、Microsoft Kinect、産業用カメラ、構造化光スキャナーなどだ。
14の照明条件下で100方向から取得した107の異なるシーンの約1.4万枚の画像を提供する。
論文 参考訳(メタデータ) (2022-03-11T17:32:27Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - RGB-D-E: Event Camera Calibration for Fast 6-DOF Object Tracking [16.06615504110132]
6自由度で3次元物体追跡を高速化するために,イベントベースカメラを提案する。
このアプリケーションは、魅力的なAR体験を伝えるために、非常に高いオブジェクトスピードを扱う必要がある。
我々は,既存のRGB-Dネットワークと新しいイベントベースネットワークをカスケード方式で組み合わせたディープラーニングアプローチを開発した。
論文 参考訳(メタデータ) (2020-06-09T01:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。