論文の概要: CoKe: Localized Contrastive Learning for Robust Keypoint Detection
- arxiv url: http://arxiv.org/abs/2009.14115v3
- Date: Mon, 23 Nov 2020 16:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:48:12.130489
- Title: CoKe: Localized Contrastive Learning for Robust Keypoint Detection
- Title(参考訳): CoKe:ロバストキーポイント検出のための局所的コントラスト学習
- Authors: Yutong Bai, Angtian Wang, Adam Kortylewski, Alan Yuille
- Abstract要約: 特徴空間における3種類の距離を最適化するためにキーポイントカーネルを選択することができることを示す。
我々は、教師付きコントラスト学習を含むフレームワーク内で、この最適化プロセスを定式化する。
CoKeは、すべてのキーポイントを論理的に共同で表現するアプローチと比較して、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 24.167397429511915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's most popular approaches to keypoint detection involve very complex
network architectures that aim to learn holistic representations of all
keypoints. In this work, we take a step back and ask: Can we simply learn a
local keypoint representation from the output of a standard backbone
architecture? This will help make the network simpler and more robust,
particularly if large parts of the object are occluded. We demonstrate that
this is possible by looking at the problem from the perspective of
representation learning. Specifically, the keypoint kernels need to be chosen
to optimize three types of distances in the feature space: Features of the same
keypoint should be similar to each other, while differing from those of other
keypoints, and also being distinct from features from the background clutter.
We formulate this optimization process within a framework, which we call CoKe,
which includes supervised contrastive learning. CoKe needs to make several
approximations to enable representation learning process on large datasets. In
particular, we introduce a clutter bank to approximate non-keypoint features,
and a momentum update to compute the keypoint representation while training the
feature extractor. Our experiments show that CoKe achieves state-of-the-art
results compared to approaches that jointly represent all keypoints
holistically (Stacked Hourglass Networks, MSS-Net) as well as to approaches
that are supervised by detailed 3D object geometry (StarMap). Moreover, CoKe is
robust and performs exceptionally well when objects are partially occluded and
significantly outperforms related work on a range of diverse datasets
(PASCAL3D+, MPII, ObjectNet3D).
- Abstract(参考訳): 今日のキーポイント検出の最も一般的なアプローチは、すべてのキーポイントの全体論的表現を学ぶことを目的とした非常に複雑なネットワークアーキテクチャである。
標準的なバックボーンアーキテクチャの出力からローカルキーポイント表現を学べますか?
これにより、特にオブジェクトの大きな部分が隠されている場合、ネットワークがよりシンプルで堅牢になる。
表現学習の観点から,この問題を考察することで実現可能であることを示す。
特に、キーポイントカーネルは、機能空間内の3つのタイプの距離を最適化するために選択される必要がある: 同じキーポイントの特徴は他のキーポイントの特徴と異なりながら、同じキーポイントの特徴は互いに似ているべきである。
我々は,この最適化プロセスを,教師付きコントラスト学習を含むCoKeと呼ぶフレームワーク内で定式化する。
CoKeは、大規模なデータセット上で表現学習プロセスを可能にするために、いくつかの近似を作成する必要がある。
特に,非キーポイント特徴を近似するためのクラッタバンクと,特徴抽出器を訓練しながらキーポイント表現を計算するモーメント更新を導入する。
実験の結果,CoKeは全キーポイント(スタックド・ホアーグラス・ネットワーク,MSS-Net)と,詳細な3次元オブジェクト・ジオメトリ(StarMap)によって管理されるアプローチとを併用して,最先端の成果が得られることがわかった。
さらに、CoKeは頑丈で、オブジェクトが部分的に隠蔽され、さまざまなデータセット(PASCAL3D+、MPII、ObjectNet3D)の関連作業よりも大幅に優れています。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Independently Keypoint Learning for Small Object Semantic Correspondence [7.3866687886529805]
キーポイントバウンディングボックス中心クロッピング法の提案
KBCNetはCSFAモジュールと効率的な4D畳み込みデコーダを備える。
提案手法はSPair-71kデータセットの7.5%の性能向上を示す。
論文 参考訳(メタデータ) (2024-04-03T12:21:41Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - DFC: Deep Feature Consistency for Robust Point Cloud Registration [0.4724825031148411]
複雑なアライメントシーンのための学習に基づくアライメントネットワークを提案する。
我々は,3DMatchデータセットとKITTIオドメトリデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2021-11-15T08:27:21Z) - End-to-End Learning of Keypoint Representations for Continuous Control
from Images [84.8536730437934]
教師なしの事前学習、デコーダ、追加の損失を必要とせずに、エンドツーエンドで効率的なキーポイント表現を学習できることが示される。
提案アーキテクチャは,ソフトアクター・クリティカルエージェントに直接座標を供給するキーポイント抽出器で構成されている。
論文 参考訳(メタデータ) (2021-06-15T09:17:06Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。