論文の概要: SingRef6D: Monocular Novel Object Pose Estimation with a Single RGB Reference
- arxiv url: http://arxiv.org/abs/2509.21927v1
- Date: Fri, 26 Sep 2025 06:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.224474
- Title: SingRef6D: Monocular Novel Object Pose Estimation with a Single RGB Reference
- Title(参考訳): SingRef6D:単一RGB参照による単分子新しいオブジェクトポス推定
- Authors: Jiahui Wang, Haiyue Zhu, Haoren Guo, Abdullah Al Mamun, Cheng Xiang, Tong Heng Lee,
- Abstract要約: 本稿では,単一のRGB画像のみを参照として必要とする軽量パイプラインであるSingRef6Dを提案する。
まず,Depth-Anything v2上に新たな最適化損失を発生させるトークンスケーラを用いた微調整機構を提案する。
第2に,Deep-Aware matching(深度対応マッチング)を導入し,難解な材料や照明条件のマッチング処理を可能にした。
- 参考スコア(独自算出の注目度): 20.869522557117662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent 6D pose estimation methods demonstrate notable performance but still face some practical limitations. For instance, many of them rely heavily on sensor depth, which may fail with challenging surface conditions, such as transparent or highly reflective materials. In the meantime, RGB-based solutions provide less robust matching performance in low-light and texture-less scenes due to the lack of geometry information. Motivated by these, we propose SingRef6D, a lightweight pipeline requiring only a single RGB image as a reference, eliminating the need for costly depth sensors, multi-view image acquisition, or training view synthesis models and neural fields. This enables SingRef6D to remain robust and capable even under resource-limited settings where depth or dense templates are unavailable. Our framework incorporates two key innovations. First, we propose a token-scaler-based fine-tuning mechanism with a novel optimization loss on top of Depth-Anything v2 to enhance its ability to predict accurate depth, even for challenging surfaces. Our results show a 14.41% improvement (in $\delta_{1.05}$) on REAL275 depth prediction compared to Depth-Anything v2 (with fine-tuned head). Second, benefiting from depth availability, we introduce a depth-aware matching process that effectively integrates spatial relationships within LoFTR, enabling our system to handle matching for challenging materials and lighting conditions. Evaluations of pose estimation on the REAL275, ClearPose, and Toyota-Light datasets show that our approach surpasses state-of-the-art methods, achieving a 6.1% improvement in average recall.
- Abstract(参考訳): 最近の6次元ポーズ推定法は、顕著な性能を示すが、実用的限界に直面している。
例えば、多くはセンサーの深さに大きく依存しており、透明または反射性の高い材料のような困難な表面条件で失敗する可能性がある。
一方、RGBベースのソリューションは、幾何学情報がないため、低照度でテクスチャレスなシーンでは、ロバストなマッチング性能が低い。
そこで我々は,単一のRGB画像のみを参照として必要とする軽量パイプラインであるSingRef6Dを提案し,コストのかかる深度センサやマルチビュー画像取得,あるいはビュー合成モデルやニューラルネットワークのトレーニングの必要性を排除した。
これにより、SingRef6Dは堅牢で、深度や高密度テンプレートが利用できないリソース制限設定でも機能する。
私たちのフレームワークには2つの重要なイノベーションが組み込まれています。
まず,Depth-Anything v2上に新たな最適化損失を有するトークンスケーラを用いた微調整機構を提案する。
その結果,REAL275深度予測では14.41%の改善($\delta_{1.05}$)がみられた。
次に,LFTR内の空間的関係を効果的に統合する深度対応マッチングプロセスを導入し,課題のある材料や照明条件のマッチング処理を可能にした。
REAL275、ClearPose、Toyota-Lightデータセットにおけるポーズ推定の評価は、我々のアプローチが最先端の手法を超え、平均リコールで6.1%改善したことを示している。
関連論文リスト
- SplatPose: Geometry-Aware 6-DoF Pose Estimation from Single RGB Image via 3D Gaussian Splatting [3.6688867031495223]
SplatPoseは3次元ガウススティング(3DGS)を2分岐ニューラルアーキテクチャで合成し,高精度なポーズ推定を実現する新しいフレームワークである。
3つのベンチマークデータセットの実験では、SplatPoseが最先端の6-DoFを1つのRGB設定で推定精度で達成していることが示されている。
論文 参考訳(メタデータ) (2025-03-07T06:40:06Z) - Self-supervised Monocular Depth Estimation on Water Scenes via Specular Reflection Prior [3.2120448116996103]
本論文は,フレーム内事前情報を用いた深層学習深度推定のための最初のセルフスーパービジョンを提案する。
第1段階では、反射成分と全体像とを分離する分水ネットワークが実行される。
SmoothL1と新しい光度適応型SSIMを組み合わせた光度再投影誤差を定式化し、ポーズと深さの推定を最適化する。
論文 参考訳(メタデータ) (2024-04-10T17:25:42Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。
筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。
DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文 参考訳(メタデータ) (2022-12-05T14:00:59Z) - MonoGraspNet: 6-DoF Grasping with a Single RGB Image [73.96707595661867]
6-DoFロボットの把握は長続きするが未解決の問題だ。
近年の手法では3次元ネットワークを用いて深度センサから幾何的把握表現を抽出している。
我々はMonoGraspNetと呼ばれるRGBのみの6-DoFグルーピングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-09-26T21:29:50Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein
GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。
本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文 参考訳(メタデータ) (2021-03-31T09:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。