論文の概要: ProgressLabeller: Visual Data Stream Annotation for Training
Object-Centric 3D Perception
- arxiv url: http://arxiv.org/abs/2203.00283v1
- Date: Tue, 1 Mar 2022 08:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 21:03:07.869513
- Title: ProgressLabeller: Visual Data Stream Annotation for Training
Object-Centric 3D Perception
- Title(参考訳): progresslabeller: オブジェクト中心の3d知覚をトレーニングするためのビジュアルデータストリームアノテーション
- Authors: Xiaotong Chen, Huijie Zhang, Zeren Yu, Stanley Lewis, Odest Chadwicke
Jenkins
- Abstract要約: ProgressLabellerは、カスタムシーンのカラー画像シーケンスから、スケーラブルな方法で大量の6Dポーズトレーニングデータを生成する方法である。
我々は,100万以上のサンプルのデータセットを迅速に作成し,最先端のポーズ推定ネットワークを微調整することで,ProgressLabellerの有効性を実証する。
- 参考スコア(独自算出の注目度): 6.634254321514103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual perception tasks often require vast amounts of labelled data,
including 3D poses and image space segmentation masks. The process of creating
such training data sets can prove difficult or time-intensive to scale up to
efficacy for general use. Consider the task of pose estimation for rigid
objects. Deep neural network based approaches have shown good performance when
trained on large, public datasets. However, adapting these networks for other
novel objects, or fine-tuning existing models for different environments,
requires significant time investment to generate newly labelled instances.
Towards this end, we propose ProgressLabeller as a method for more efficiently
generating large amounts of 6D pose training data from color images sequences
for custom scenes in a scalable manner. ProgressLabeller is intended to also
support transparent or translucent objects, for which the previous methods
based on depth dense reconstruction will fail. We demonstrate the effectiveness
of ProgressLabeller by rapidly create a dataset of over 1M samples with which
we fine-tune a state-of-the-art pose estimation network in order to markedly
improve the downstream robotic grasp success rates. ProgressLabeller will be
made publicly available soon.
- Abstract(参考訳): 視覚知覚タスクは、しばしば3Dポーズや画像空間分割マスクを含む大量のラベル付きデータを必要とする。
このようなトレーニングデータセットを作成するプロセスは、一般的な用途で有効にスケールアップすることが困難または時間集約的であることを証明できる。
剛体物体に対するポーズ推定のタスクを考える。
ディープニューラルネットワークベースのアプローチは、大規模な公開データセットでトレーニングされた場合、優れたパフォーマンスを示している。
しかし、これらのネットワークを他の新しいオブジェクトに適応させるか、既存のモデルを異なる環境向けに微調整するかは、新しいラベル付きインスタンスを生成するのにかなりの時間を要する。
そこで本研究では,カラー画像シーケンスから大量の6次元ポーズトレーニングデータを,スケーラブルな方法で効率よく生成する手法として,ProgressLabellerを提案する。
progresslabellerは、透明または半透明なオブジェクトをサポートすることを目的としている。
我々は,最先端のポーズ推定ネットワークを微調整し,下流ロボットの把持成功率を著しく向上させる,100万以上のサンプルのデータセットを迅速に作成することにより,progresslabellerの有効性を実証する。
ProgressLabellerは近く公開される予定だ。
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - P3P: Pseudo-3D Pre-training for Scaling 3D Masked Autoencoders [32.85484320025852]
本研究では,画像から持ち上げた実データと擬似3Dデータを利用した自己教師付き事前学習フレームワークを,大深度推定モデルにより提案する。
提案手法は,3次元分類および少数ショット学習における最先端性能を高い事前学習と下流微調整効率を維持しながら達成する。
論文 参考訳(メタデータ) (2024-08-19T13:59:53Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - You Only Need One Thing One Click: Self-Training for Weakly Supervised
3D Scene Understanding [107.06117227661204]
私たちはOne Thing One Click''を提案する。つまり、アノテーションはオブジェクトごとに1つのポイントをラベル付けするだけです。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
我々のモデルは、ポイントクラスタリング戦略を備えた3Dインスタンスセグメンテーションと互換性がある。
論文 参考訳(メタデータ) (2023-03-26T13:57:00Z) - Self-supervised Learning of 3D Object Understanding by Data Association
and Landmark Estimation for Image Sequence [15.815583594196488]
2D画像から下降する3Dオブジェクトは、減次元情報から副次元を推測する挑戦的なタスクです。
3Dアノテーションの達成は高価かつ時間を要するため、大量の3Dデータセットを得ることは困難である。
本研究では, 自己性能を克服するために, 画像シーケンス内の物体の多重観測を利用する戦略を提案する。
論文 参考訳(メタデータ) (2021-04-14T18:59:08Z) - One Thing One Click: A Self-Training Approach for Weakly Supervised 3D
Semantic Segmentation [78.36781565047656]
私たちは、アノテーションーがオブジェクトごとに1ポイントだけラベルを付ける必要があることを意味する「One Thing One Click」を提案します。
グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う。
私たちの結果は、完全に監督されたものと同等です。
論文 参考訳(メタデータ) (2021-04-06T02:27:25Z) - Rapid Pose Label Generation through Sparse Representation of Unknown
Objects [7.32172860877574]
本研究は、未知のオブジェクトに対する実世界のポーズアノテートされたRGB-Dデータを高速に生成するためのアプローチを提案する。
我々はまず、RGB-Dビデオのセット上で任意に選択されたキーポイントの順序付きセットの最小限のラベルを出力する。
最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
論文 参考訳(メタデータ) (2020-11-07T15:14:03Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。