論文の概要: Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings
- arxiv url: http://arxiv.org/abs/2112.04910v2
- Date: Mon, 13 Dec 2021 11:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 11:28:27.520375
- Title: Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings
- Title(参考訳): 潜在埋め込みによるタスク適応としての少数キーポイント検出
- Authors: Mel Vecerik and Jackie Kay and Raia Hadsell and Lourdes Agapito and
Jon Scholz
- Abstract要約: 既存のアプローチでは、1つのフォワードパスに密なキーポイントの埋め込みを計算するか、その全容量をスパースポイントのセットに割り当てる。
本稿では,ある時点における関連点数が典型的には少ないという観測に基づいて,中間点を探索する。
私たちの主な貢献は、キーポイント埋め込みでスパーススタイルのネットワークを条件付けることができる、少数ショットタスク適応にインスパイアされた、新しいアーキテクチャです。
- 参考スコア(独自算出の注目度): 17.04471874483516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense object tracking, the ability to localize specific object points with
pixel-level accuracy, is an important computer vision task with numerous
downstream applications in robotics. Existing approaches either compute dense
keypoint embeddings in a single forward pass, meaning the model is trained to
track everything at once, or allocate their full capacity to a sparse
predefined set of points, trading generality for accuracy. In this paper we
explore a middle ground based on the observation that the number of relevant
points at a given time are typically relatively few, e.g. grasp points on a
target object. Our main contribution is a novel architecture, inspired by
few-shot task adaptation, which allows a sparse-style network to condition on a
keypoint embedding that indicates which point to track. Our central finding is
that this approach provides the generality of dense-embedding models, while
offering accuracy significantly closer to sparse-keypoint approaches. We
present results illustrating this capacity vs. accuracy trade-off, and
demonstrate the ability to zero-shot transfer to new object instances
(within-class) using a real-robot pick-and-place task.
- Abstract(参考訳): 特定のオブジェクトポイントをピクセルレベルの精度でローカライズするDense Object Trackingは、ロボット工学における多くのダウンストリーム応用を伴う重要なコンピュータビジョンタスクである。
既存のアプローチでは、密度の高いキーポイント埋め込みを1回のフォワードパスで計算する、つまりモデルは、すべてを一度に追跡するように訓練される、あるいは完全な容量をスパースな事前定義されたポイントに割り当てる、という方法がある。
本稿では,対象物体の把持点など,ある時点の関連点数が比較的少ないという観測に基づいて,中間地盤を探索する。
私たちの主なコントリビューションは、少数ショットのタスク適応にインスパイアされた新しいアーキテクチャであり、どのポイントをトラックするかを示すキーポイント埋め込みにスパーススタイルのネットワークを条件付けることができます。
我々の中心的な発見は、このアプローチが密度埋め込みモデルの一般性を提供する一方で、スパースキーポイントアプローチにかなり近い精度を提供することである。
本稿では,このキャパシティ対精度トレードオフを実証し,実ロボットピック・アンド・プレイスタスクを用いて,新しいオブジェクトインスタンス(クラス内)へのゼロショット転送機能を示す。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Weakly-Supervised Cross-Domain Segmentation of Electron Microscopy with Sparse Point Annotation [1.124958340749622]
カウント,検出,セグメンテーションタスク間の相関を利用したマルチタスク学習フレームワークを提案する。
ラベル拡張のためのクロスポジションカット・アンド・ペーストを開発し,エントロピーに基づく擬似ラベル選択を行う。
提案手法は, UDA法を著しく上回り, 教師付き手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2024-03-31T12:22:23Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。