論文の概要: S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency
- arxiv url: http://arxiv.org/abs/2009.14711v2
- Date: Tue, 13 Oct 2020 10:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:18:10.869655
- Title: S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency
- Title(参考訳): S3K:マルチビュー一貫性によるロボットマニピュレーションのための自己監督型セマンティックキーポイント
- Authors: Mel Vecerik, Jean-Baptiste Regli, Oleg Sushkov, David Barker, Rugile
Pevceviciute, Thomas Roth\"orl, Christopher Schuster, Raia Hadsell, Lourdes
Agapito, Jonathan Scholz
- Abstract要約: 視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
- 参考スコア(独自算出の注目度): 11.357804868755155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A robot's ability to act is fundamentally constrained by what it can
perceive. Many existing approaches to visual representation learning utilize
general-purpose training criteria, e.g. image reconstruction, smoothness in
latent space, or usefulness for control, or else make use of large datasets
annotated with specific features (bounding boxes, segmentations, etc.).
However, both approaches often struggle to capture the fine-detail required for
precision tasks on specific objects, e.g. grasping and mating a plug and
socket. We argue that these difficulties arise from a lack of geometric
structure in these models. In this work we advocate semantic 3D keypoints as a
visual representation, and present a semi-supervised training objective that
can allow instance or category-level keypoints to be trained to 1-5
millimeter-accuracy with minimal supervision. Furthermore, unlike local
texture-based approaches, our model integrates contextual information from a
large area and is therefore robust to occlusion, noise, and lack of discernible
texture. We demonstrate that this ability to locate semantic keypoints enables
high level scripting of human understandable behaviours. Finally we show that
these keypoints provide a good way to define reward functions for reinforcement
learning and are a good representation for training agents.
- Abstract(参考訳): ロボットの行動能力は、知覚できるものによって根本的に制約される。
視覚的表現学習への既存の多くのアプローチは、画像再構成、潜時空間の滑らかさ、制御の有用性など、汎用的なトレーニング基準を利用し、あるいは特定の特徴(境界ボックス、セグメンテーションなど)を付加した大きなデータセットを使用する。
しかし、どちらのアプローチも、プラグやソケットの把持や結合など、特定のオブジェクトの精密なタスクに必要な細かな詳細を捉えるのに苦労することが多い。
これらの困難は、これらのモデルに幾何学的構造が欠如していることから生じる。
本研究では,意味的3dキーポイントを視覚的表現として提唱し,インスタンスやカテゴリレベルのキーポイントを最小限の監視で1~5ミリ精度にトレーニング可能な,半教師付きトレーニング目標を提示した。
さらに, 局所的なテクスチャに基づくアプローチとは異なり, 広い範囲からの文脈情報の統合により, 咬合, 騒音, 識別可能なテクスチャの欠如に対して頑健である。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルスクリプティングが可能になることを実証する。
最後に、これらのキーポイントは強化学習のための報酬関数を定義する良い方法であり、訓練エージェントにとって良い表現であることを示す。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - 3D Human Keypoints Estimation From Point Clouds in the Wild Without
Human Labels [78.69095161350059]
GC-KPLは、人間のラベルなしでポイントクラウドから3Dの人間の関節位置を学習するためのアプローチである。
人間の注釈付きキーポイントを使わずに大規模なトレーニングセットでトレーニングを行うことで、完全に教師されたアプローチと比較して合理的なパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2023-06-07T19:46:30Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Few-Shot Keypoint Detection as Task Adaptation via Latent Embeddings [17.04471874483516]
既存のアプローチでは、1つのフォワードパスに密なキーポイントの埋め込みを計算するか、その全容量をスパースポイントのセットに割り当てる。
本稿では,ある時点における関連点数が典型的には少ないという観測に基づいて,中間点を探索する。
私たちの主な貢献は、キーポイント埋め込みでスパーススタイルのネットワークを条件付けることができる、少数ショットタスク適応にインスパイアされた、新しいアーキテクチャです。
論文 参考訳(メタデータ) (2021-12-09T13:25:42Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Multi-Modal Learning of Keypoint Predictive Models for Visual Object
Manipulation [6.853826783413853]
人間は、新しい環境で物体を操作するという点において、素晴らしい一般化能力を持っている。
ロボットのためのこのようなボディスキーマの学習方法は、まだ未解決の問題である。
本研究では,視覚的潜在表現から物体を把握する際に,ロボットの運動モデルを拡張する自己教師型アプローチを開発する。
論文 参考訳(メタデータ) (2020-11-08T01:04:59Z) - CoKe: Localized Contrastive Learning for Robust Keypoint Detection [24.167397429511915]
特徴空間における3種類の距離を最適化するためにキーポイントカーネルを選択することができることを示す。
我々は、教師付きコントラスト学習を含むフレームワーク内で、この最適化プロセスを定式化する。
CoKeは、すべてのキーポイントを論理的に共同で表現するアプローチと比較して、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T16:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。