論文の概要: AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with
Pretrained ViT
- arxiv url: http://arxiv.org/abs/2309.08134v1
- Date: Fri, 15 Sep 2023 04:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:14:17.795316
- Title: AnyOKP: One-Shot and Instance-Aware Object Keypoint Extraction with
Pretrained ViT
- Title(参考訳): AnyOKP: 事前トレーニングVTTによるワンショットおよびインスタンス対応オブジェクトキーポイント抽出
- Authors: Fangbo Qin, Taogang Hou, Shan Lin, Kaiyuan Wang, Michael C. Yip, Shan
Yu
- Abstract要約: フレキシブルなオブジェクト中心の視覚知覚を実現するために,一発のインスタンス認識オブジェクトキーポイント(OKP)抽出手法であるAnyOKPを提案する。
一般化可能かつ伝達可能な特徴抽出のために、市販のペストレート・ビジョン・トランスフォーマー(ViT)を配置する。
AnyOKPは、ロボットアーム、移動ロボット、手術ロボットのカメラで収集された実際の物体画像に基づいて評価される。
- 参考スコア(独自算出の注目度): 28.050252998288478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Towards flexible object-centric visual perception, we propose a one-shot
instance-aware object keypoint (OKP) extraction approach, AnyOKP, which
leverages the powerful representation ability of pretrained vision transformer
(ViT), and can obtain keypoints on multiple object instances of arbitrary
category after learning from a support image. An off-the-shelf petrained ViT is
directly deployed for generalizable and transferable feature extraction, which
is followed by training-free feature enhancement. The best-prototype pairs
(BPPs) are searched for in support and query images based on appearance
similarity, to yield instance-unaware candidate keypoints.Then, the entire
graph with all candidate keypoints as vertices are divided to sub-graphs
according to the feature distributions on the graph edges. Finally, each
sub-graph represents an object instance. AnyOKP is evaluated on real object
images collected with the cameras of a robot arm, a mobile robot, and a
surgical robot, which not only demonstrates the cross-category flexibility and
instance awareness, but also show remarkable robustness to domain shift and
viewpoint change.
- Abstract(参考訳): フレキシブルなオブジェクト中心の視覚知覚に向けて、事前学習された視覚変換器(ViT)の強力な表現能力を活用し、支援画像から学習した任意のカテゴリの複数のオブジェクトインスタンス上のキーポイントを得ることのできる、一発のインスタンス対応オブジェクトキーポイント(OKP)抽出手法AnyOKPを提案する。
市販のpetrained vitは、一般化および転送可能な特徴抽出のために直接デプロイされ、トレーニング不要の機能拡張が続く。
最良プロトタイプペア (BPP) は, 外観の類似性に基づく検索画像の検索と検索を行い, 候補キーポイントを問わない候補キーポイントの検索を行い, グラフエッジ上の特徴分布に応じて, 頂点として候補キーポイントが全てサブグラフに分割する。
最後に、各サブグラフはオブジェクトインスタンスを表す。
AnyOKPは、ロボットアーム、移動ロボット、および手術ロボットのカメラで収集された実際のオブジェクト画像に基づいて評価される。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - USEEK: Unsupervised SE(3)-Equivariant 3D Keypoints for Generalizable
Manipulation [19.423310410631085]
U.S.EEKは、カテゴリー内のインスタンス間のアライメントを楽しむ、教師なしSE(3)-同変キーポイント法である。
UEEKを手にすると、ロボットはカテゴリレベルのタスク関連オブジェクトフレームを効率的かつ説明可能な方法で推論することができる。
論文 参考訳(メタデータ) (2022-09-28T06:42:29Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - AutoLink: Self-supervised Learning of Human Skeletons and Object
Outlines by Linking Keypoints [16.5436159805682]
本研究では,オブジェクト構造を外見から切り離すことを学習する自己教師型手法を提案する。
キーポイントの位置と両辺の重みはどちらも学習され、同じオブジェクトクラスを描いている画像の集合のみを考慮に入れられる。
結果のグラフは解釈可能で、例えばAutoLinkは、人を示す画像に適用すると、人間の骨格のトポロジーを復元する。
論文 参考訳(メタデータ) (2022-05-21T16:32:34Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - End-to-end Reinforcement Learning of Robotic Manipulation with Robust
Keypoints Representation [7.374994747693731]
本稿では,ロバストかつ効率的なキーポイント表現を用いて,ロボット操作タスクのためのエンドツーエンド強化学習フレームワークを提案する。
提案手法は,自己教師型オートエンコーダアーキテクチャを用いて,カメラ画像からキーポイントを状態表現として学習する。
本研究では,ロボット操作作業におけるロボット操作の有効性を,異なるシナリオで示す。
論文 参考訳(メタデータ) (2022-02-12T09:58:09Z) - Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement [21.736603698556042]
そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。
これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-11-15T18:39:43Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。