論文の概要: Sim2Real Object-Centric Keypoint Detection and Description
- arxiv url: http://arxiv.org/abs/2202.00448v1
- Date: Tue, 1 Feb 2022 15:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 13:52:33.855896
- Title: Sim2Real Object-Centric Keypoint Detection and Description
- Title(参考訳): Sim2Real Object-Centric Keypoint Detection and Description
- Authors: Chengliang Zhong, Chao Yang, Jinshan Qi, Fuchun Sun, Huaping Liu,
Xiaodong Mu, Wenbing Huang
- Abstract要約: キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
- 参考スコア(独自算出の注目度): 40.58367357980036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keypoint detection and description play a central role in computer vision.
Most existing methods are in the form of scene-level prediction, without
returning the object classes of different keypoints. In this paper, we propose
the object-centric formulation, which, beyond the conventional setting,
requires further identifying which object each interest point belongs to. With
such fine-grained information, our framework enables more downstream
potentials, such as object-level matching and pose estimation in a clustered
environment. To get around the difficulty of label collection in the real
world, we develop a sim2real contrastive learning mechanism that can generalize
the model trained in simulation to real-world applications. The novelties of
our training method are three-fold: (i) we integrate the uncertainty into the
learning framework to improve feature description of hard cases, e.g.,
less-textured or symmetric patches; (ii) we decouple the object descriptor into
two output branches -- intra-object salience and inter-object distinctness,
resulting in a better pixel-wise description; (iii) we enforce cross-view
semantic consistency for enhanced robustness in representation learning.
Comprehensive experiments on image matching and 6D pose estimation verify the
encouraging generalization ability of our method from simulation to reality.
Particularly for 6D pose estimation, our method significantly outperforms
typical unsupervised/sim2real methods, achieving a closer gap with the fully
supervised counterpart.
- Abstract(参考訳): キーポイント検出と説明はコンピュータビジョンにおいて中心的な役割を果たす。
既存のメソッドのほとんどは、異なるキーポイントのオブジェクトクラスを返すことなく、シーンレベルの予測の形式である。
本稿では,従来の設定を超えて,各関心点が属する対象をさらに識別するオブジェクト中心の定式化を提案する。
このような詳細な情報によって,クラスタ環境におけるオブジェクトレベルのマッチングやポーズ推定といった,より下流的なポテンシャルが実現されるのです。
実世界におけるラベル収集の難しさを回避するため,シミュレーションで訓練されたモデルを実世界アプリケーションに一般化できるsim2現実のコントラスト学習機構を開発した。
我々の訓練方法の目新しさは3つある。
(i)不確実性を学習フレームワークに統合し、例えば、テキストの少ないパッチや対称パッチなど、ハードケースの特徴記述を改善する。
(ii)オブジェクトディスクリプタを2つの出力ブランチに分離する(オブジェクト内サリアンスとオブジェクト間区別性)。
(iii)表現学習におけるロバスト性を高めるために、横断的意味的一貫性を強制する。
画像マッチングと6次元ポーズ推定に関する総合実験により,シミュレーションから現実に至るまでの手法の一般化能力を検証する。
特に6次元ポーズ推定では,本手法は一般的な教師なし/シミュリアルな手法よりも優れており,完全に教師付きされた手法とのギャップが深くなっている。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Towards Self-Supervised Learning of Global and Object-Centric
Representations [4.36572039512405]
自己スーパービジョンを用いた構造化対象中心表現の学習における重要な側面について論じる。
CLEVRデータセットに関するいくつかの実験を通じて、私たちの洞察を検証します。
論文 参考訳(メタデータ) (2022-03-11T15:18:47Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。