論文の概要: Self-supervised Learning of 3D Object Understanding by Data Association
and Landmark Estimation for Image Sequence
- arxiv url: http://arxiv.org/abs/2104.07077v1
- Date: Wed, 14 Apr 2021 18:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 08:35:47.276393
- Title: Self-supervised Learning of 3D Object Understanding by Data Association
and Landmark Estimation for Image Sequence
- Title(参考訳): データアソシエーションによる3次元オブジェクト理解の自己教師型学習と画像系列のランドマーク推定
- Authors: Hyeonwoo Yu and Jean Oh
- Abstract要約: 2D画像から下降する3Dオブジェクトは、減次元情報から副次元を推測する挑戦的なタスクです。
3Dアノテーションの達成は高価かつ時間を要するため、大量の3Dデータセットを得ることは困難である。
本研究では, 自己性能を克服するために, 画像シーケンス内の物体の多重観測を利用する戦略を提案する。
- 参考スコア(独自算出の注目度): 15.815583594196488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a self-supervised learningmethod for multi-object
pose estimation. 3D object under-standing from 2D image is a challenging task
that infers ad-ditional dimension from reduced-dimensional information.In
particular, the estimation of the 3D localization or orien-tation of an object
requires precise reasoning, unlike othersimple clustering tasks such as object
classification. There-fore, the scale of the training dataset becomes more
cru-cial. However, it is challenging to obtain large amount of3D dataset since
achieving 3D annotation is expensive andtime-consuming. If the scale of the
training dataset can beincreased by involving the image sequence obtained
fromsimple navigation, it is possible to overcome the scale lim-itation of the
dataset and to have efficient adaptation tothe new environment. However, when
the self annotation isconducted on single image by the network itself,
trainingperformance of the network is bounded to the self perfor-mance.
Therefore, we propose a strategy to exploit multipleobservations of the object
in the image sequence in orderto surpass the self-performance: first, the
landmarks for theglobal object map are estimated through network predic-tion
and data association, and the corrected annotation fora single frame is
obtained. Then, network fine-tuning is con-ducted including the dataset
obtained by self-annotation,thereby exceeding the performance boundary of the
networkitself. The proposed method was evaluated on the KITTIdriving scene
dataset, and we demonstrate the performanceimprovement in the pose estimation
of multi-object in 3D space.
- Abstract(参考訳): 本稿では,多目的ポーズ推定のための自己教師あり学習手法を提案する。
2次元画像から起立する3次元オブジェクトは,減次元情報からad次元を推定する困難な課題である。特に,オブジェクトの3次元位置推定やorien-tationの推定には,オブジェクト分類などの他の単純なクラスタリングタスクとは異なり,正確な推論が必要である。
そのため、トレーニングデータセットの規模は、よりcru-cialになります。
しかし、3Dアノテーションの達成は高価で時間を要するため、大量の3Dデータセットを得ることは困難である。
単純なナビゲーションから得られた画像シーケンスを伴ってトレーニングデータセットのスケールが向上すれば、データセットのスケールリムイテーションを克服し、新しい環境に効率的に適応することができる。
しかし、ネットワーク自体が単一画像上で自己アノテーションを動作させると、ネットワークのトレーニング性能は自己パーフォルマンスに拘束される。
そこで本稿では,自己性能を上回るために,画像シーケンス内のオブジェクトの多重観測を利用する手法を提案する。まず,ネットワーク述語とデータアソシエーションを用いて,グローバルオブジェクトマップのランドマークを推定し,単一のフレームの修正アノテーションを得る。
そして、自己注釈により得られたデータセットを含むネットワークの微調整を、ネットワークit自体の性能境界を超えることにより、一体化する。
提案手法はkittidriving sceneデータセット上で評価され, 3次元空間におけるマルチオブジェクトのポーズ推定における性能改善効果を示す。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - Simultaneous Multiple Object Detection and Pose Estimation using 3D
Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。
単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。
我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文 参考訳(メタデータ) (2022-11-21T05:18:56Z) - S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation
with Semi-Supervised Learning [70.72037296392642]
モノクロ画像から接触を学習できる新しい半教師付きフレームワークを提案する。
具体的には、大規模データセットにおける視覚的および幾何学的整合性制約を利用して擬似ラベルを生成する。
より正確な再構築を行うために手動インタラクションを規定するコンタクトマップを使用することの利点を示す。
論文 参考訳(メタデータ) (2022-08-01T14:05:23Z) - Primitive3D: 3D Object Dataset Synthesis from Randomly Assembled
Primitives [44.03149443379618]
アノテーションで大量の3Dオブジェクトを自動生成するコスト効率のよい手法を提案する。
これらのオブジェクトはプリミティブから派生した部分ラベルで自動アノテーションされる。
生成したデータセットに対する学習のオーバーヘッドが大きいことを考慮し,データセットの蒸留戦略を提案する。
論文 参考訳(メタデータ) (2022-05-25T10:07:07Z) - Self-Supervised Multi-View Synchronization Learning for 3D Pose
Estimation [39.334995719523]
現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。
そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。
我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-13T08:01:24Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。