論文の概要: AutoLink: Self-supervised Learning of Human Skeletons and Object
Outlines by Linking Keypoints
- arxiv url: http://arxiv.org/abs/2205.10636v6
- Date: Thu, 23 Mar 2023 18:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:50:17.445784
- Title: AutoLink: Self-supervised Learning of Human Skeletons and Object
Outlines by Linking Keypoints
- Title(参考訳): AutoLink: キーポイントのリンクによる人体骨格とオブジェクトアウトラインの自己教師型学習
- Authors: Xingzhe He, Bastian Wandt, Helge Rhodin
- Abstract要約: 本研究では,オブジェクト構造を外見から切り離すことを学習する自己教師型手法を提案する。
キーポイントの位置と両辺の重みはどちらも学習され、同じオブジェクトクラスを描いている画像の集合のみを考慮に入れられる。
結果のグラフは解釈可能で、例えばAutoLinkは、人を示す画像に適用すると、人間の骨格のトポロジーを復元する。
- 参考スコア(独自算出の注目度): 16.5436159805682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured representations such as keypoints are widely used in pose
transfer, conditional image generation, animation, and 3D reconstruction.
However, their supervised learning requires expensive annotation for each
target domain. We propose a self-supervised method that learns to disentangle
object structure from the appearance with a graph of 2D keypoints linked by
straight edges. Both the keypoint location and their pairwise edge weights are
learned, given only a collection of images depicting the same object class. The
resulting graph is interpretable, for example, AutoLink recovers the human
skeleton topology when applied to images showing people. Our key ingredients
are i) an encoder that predicts keypoint locations in an input image, ii) a
shared graph as a latent variable that links the same pairs of keypoints in
every image, iii) an intermediate edge map that combines the latent graph edge
weights and keypoint locations in a soft, differentiable manner, and iv) an
inpainting objective on randomly masked images. Although simpler, AutoLink
outperforms existing self-supervised methods on the established keypoint and
pose estimation benchmarks and paves the way for structure-conditioned
generative models on more diverse datasets. Project website:
https://xingzhehe.github.io/autolink/.
- Abstract(参考訳): キーポイントのような構造化表現は、ポーズ転送、条件付き画像生成、アニメーション、および3d再構成において広く使われている。
しかし、それらの教師付き学習は、ターゲットドメインごとに高価なアノテーションを必要とする。
本研究では,2次元キーポイントのグラフを直線のエッジに関連付けることで,オブジェクト構造を外見から切り離す自己教師型手法を提案する。
キーポイントの位置と両辺の重みはどちらも学習され、同じオブジェクトクラスを描いている画像の集合のみを考慮に入れられる。
結果のグラフは解釈可能で、例えばAutoLinkは、人を示す画像に適用すると、人間の骨格のトポロジーを復元する。
私たちの重要な材料は
一 入力画像におけるキーポイントの位置を予測するエンコーダ
二 画像ごとに同じキーポイントのペアをリンクする潜在変数としての共有グラフ
三 潜伏グラフの辺の重みとキーポイントの位置を柔らかく異なる方法で組み合わせた中間エッジマップ
iv) ランダムにマスキングされた画像に塗布する目的
シンプルではあるが、autolinkは確立されたキーポイントとポーズ推定ベンチマークで既存の自己教師付きメソッドよりも優れており、より多様なデータセット上の構造条件付き生成モデルへの道を開く。
プロジェクトwebサイト: https://xingzhehe.github.io/autolink/
関連論文リスト
- GOReloc: Graph-based Object-Level Relocalization for Visual SLAM [17.608119427712236]
本稿では,ロボットシステムのオブジェクトレベル再ローカライズのための新しい手法を紹介する。
軽量なオブジェクトレベルマップにおいて、現在のフレーム内の物体検出と3Dオブジェクトとの密接な関連付けにより、カメラセンサのポーズを決定する。
論文 参考訳(メタデータ) (2024-08-15T03:54:33Z) - KGpose: Keypoint-Graph Driven End-to-End Multi-Object 6D Pose Estimation via Point-Wise Pose Voting [0.0]
KGposeは、複数のオブジェクトの6Dポーズ推定のためのエンドツーエンドフレームワークである。
我々のアプローチはキーポイントベースの手法とキーポイントグラフによる学習可能なポーズ回帰を組み合わせる。
論文 参考訳(メタデータ) (2024-07-12T01:06:00Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with
Pretrained ViT [28.050252998288478]
フレキシブルなオブジェクト中心の視覚知覚を実現するために,一発のインスタンス認識オブジェクトキーポイント(OKP)抽出手法であるAnyOKPを提案する。
一般化可能かつ伝達可能な特徴抽出のために、市販のペストレート・ビジョン・トランスフォーマー(ViT)を配置する。
AnyOKPは、ロボットアーム、移動ロボット、手術ロボットのカメラで収集された実際の物体画像に基づいて評価される。
論文 参考訳(メタデータ) (2023-09-15T04:05:01Z) - Correlational Image Modeling for Self-Supervised Visual Pre-Training [81.82907503764775]
相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
論文 参考訳(メタデータ) (2023-03-22T15:48:23Z) - Piecewise Planar Hulls for Semi-Supervised Learning of 3D Shape and Pose
from 2D Images [133.68032636906133]
本研究では,1つの2次元画像から,物体の3次元形状とポーズをキーポイントで推定する問題について検討する。
形状とポーズは、カテゴリによって収集された画像と、その部分的な2Dキーポイントアノテーションから直接学習される。
論文 参考訳(メタデータ) (2022-11-14T16:18:11Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Joint Deep Multi-Graph Matching and 3D Geometry Learning from
Inhomogeneous 2D Image Collections [57.60094385551773]
非均質な画像コレクションから変形可能な3Dジオメトリモデルを学ぶためのトレーニング可能なフレームワークを提案する。
さらに,2次元画像で表現された物体の3次元形状も取得する。
論文 参考訳(メタデータ) (2021-03-31T17:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。