論文の概要: Self-supervised Wide Baseline Visual Servoing via 3D Equivariance
- arxiv url: http://arxiv.org/abs/2209.05432v1
- Date: Mon, 12 Sep 2022 17:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:46:30.959644
- Title: Self-supervised Wide Baseline Visual Servoing via 3D Equivariance
- Title(参考訳): 3次元等分散による自己教師ありワイドベースライン視覚サーボ
- Authors: Jinwook Huh, Jungseok Hong, Suveer Garg, Hyun Soo Park, and Volkan
Isler
- Abstract要約: 本稿では,広視野ベースライン画像に対する自己教師付き視覚サーボ手法を提案する。
絶対カメラがオブジェクトに対して作用する既存のアプローチでは、オブジェクトの3D地上真理データが必要である。
平均誤差が35%以上減少し,90%以上の成功率と3cmの誤差耐性が得られた。
- 参考スコア(独自算出の注目度): 35.93323183558956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the challenging input settings for visual servoing is when the initial
and goal camera views are far apart. Such settings are difficult because the
wide baseline can cause drastic changes in object appearance and cause
occlusions. This paper presents a novel self-supervised visual servoing method
for wide baseline images which does not require 3D ground truth supervision.
Existing approaches that regress absolute camera pose with respect to an object
require 3D ground truth data of the object in the forms of 3D bounding boxes or
meshes. We learn a coherent visual representation by leveraging a geometric
property called 3D equivariance-the representation is transformed in a
predictable way as a function of 3D transformation. To ensure that the
feature-space is faithful to the underlying geodesic space, a geodesic
preserving constraint is applied in conjunction with the equivariance. We
design a Siamese network that can effectively enforce these two geometric
properties without requiring 3D supervision. With the learned model, the
relative transformation can be inferred simply by following the gradient in the
learned space and used as feedback for closed-loop visual servoing. Our method
is evaluated on objects from the YCB dataset, showing meaningful outperformance
on a visual servoing task, or object alignment task with respect to
state-of-the-art approaches that use 3D supervision. Ours yields more than 35%
average distance error reduction and more than 90% success rate with 3cm error
tolerance.
- Abstract(参考訳): 視覚サーボの難しい入力設定の1つは、初期と目標のカメラビューが遠く離れているときです。
このような設定は、広い基準線がオブジェクトの外観の劇的な変化を引き起こし、閉塞を引き起こすため困難である。
本稿では,3次元の地中真理監督を必要としない広視野ベースライン画像に対する自己監督型ビジュアルサーボ手法を提案する。
オブジェクトに対して絶対カメラが作用する既存のアプローチでは、3Dバウンディングボックスやメッシュの形式でオブジェクトの3D地上真実データが必要となる。
我々は、3D同値と呼ばれる幾何学的特性を利用してコヒーレントな視覚表現を学習し、その表現は3D変換の関数として予測可能な方法で変換される。
特徴空間が基礎となる測地線空間に忠実であることを保証するため、測地線保存制約を同値性とともに適用する。
我々は,これら2つの幾何学的特性を3次元の監督を必要とせずに効果的に実施できるシームズネットワークを設計する。
学習モデルでは、学習空間の勾配に従うだけで相対変換を推測することができ、閉ループ視覚サーボのフィードバックとして使用できる。
提案手法は,YCBデータセットから得られたオブジェクトに対して評価を行い,視覚サーボタスクや3D監視を用いた最先端手法に対するオブジェクトアライメントタスクにおいて有意義な性能を示す。
平均誤差が35%以上減少し,90%以上の成功率と3cmの誤差耐性が得られた。
関連論文リスト
- Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - DProST: 6-DoF Object Pose Estimation Using Space Carving and Dynamic
Projective Spatial Transformer [20.291172201922084]
深層学習に基づくポーズ推定手法はCADデータに3D中間表現やプロジェクト2Dの外観を利用する必要がある。
本稿では,CADデータを置き換えるために,参照3次元特徴を再構成する空間彫刻モジュールからなる新しいポーズ推定システムを提案する。
また,2方向Zバッファリング(BiZバッファ)法により,物体の正面視と自己閉塞バックビューの両方を抽出し,自己閉塞問題を克服する。
論文 参考訳(メタデータ) (2021-12-16T10:39:09Z) - Neural Articulated Radiance Field [90.91714894044253]
本稿では,画像から学習した明瞭な物体に対する新しい変形可能な3次元表現であるニューラルArticulated Radiance Field(NARF)を提案する。
実験の結果,提案手法は効率的であり,新しいポーズにうまく一般化できることがわかった。
論文 参考訳(メタデータ) (2021-04-07T13:23:14Z) - 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文 参考訳(メタデータ) (2020-10-30T13:56:09Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。