論文の概要: PyraPose: Feature Pyramids for Fast and Accurate Object Pose Estimation
under Domain Shift
- arxiv url: http://arxiv.org/abs/2010.16117v1
- Date: Fri, 30 Oct 2020 08:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 16:52:32.707659
- Title: PyraPose: Feature Pyramids for Fast and Accurate Object Pose Estimation
under Domain Shift
- Title(参考訳): PyraPose: ドメインシフト下での高速かつ正確なオブジェクトポース推定のための特徴ピラミド
- Authors: Stefan Thalhammer, Markus Leitner, Timothy Patten and Markus Vincze
- Abstract要約: 我々は、エンコーダデコーダネットワークではなく、パッチベースのアプローチの方が、合成から現実への転送に適していると論じる。
本稿では、ポーズ仮説を作成するための多スケール特徴量を計算するための、特殊な特徴ピラミッドネットワークに基づく新しいアプローチを提案する。
我々の単発ポーズ推定アプローチは、複数の標準データセットで評価され、アートの状態を最大35%向上させる。
- 参考スコア(独自算出の注目度): 26.037061005620263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object pose estimation enables robots to understand and interact with their
environments. Training with synthetic data is necessary in order to adapt to
novel situations. Unfortunately, pose estimation under domain shift, i.e.,
training on synthetic data and testing in the real world, is challenging. Deep
learning-based approaches currently perform best when using encoder-decoder
networks but typically do not generalize to new scenarios with different scene
characteristics. We argue that patch-based approaches, instead of
encoder-decoder networks, are more suited for synthetic-to-real transfer
because local to global object information is better represented. To that end,
we present a novel approach based on a specialized feature pyramid network to
compute multi-scale features for creating pose hypotheses on different feature
map resolutions in parallel. Our single-shot pose estimation approach is
evaluated on multiple standard datasets and outperforms the state of the art by
up to 35%. We also perform grasping experiments in the real world to
demonstrate the advantage of using synthetic data to generalize to novel
environments.
- Abstract(参考訳): オブジェクトのポーズ推定により、ロボットは環境を理解し、対話することができる。
新たな状況に適応するためには、合成データによるトレーニングが必要である。
残念なことに、ドメインシフトの下でのポーズ推定、すなわち、合成データに関するトレーニングと現実世界のテストは困難である。
深層学習に基づくアプローチは、エンコーダデコーダネットワークを使用する場合、現在最もよく機能するが、通常、異なるシーン特性を持つ新しいシナリオに一般化しない。
パッチベースのアプローチは、エンコーダ・デコーダネットワークではなく、ローカルからグローバルへのオブジェクト情報がより表現しやすいため、合成から現実への転送に適していると論じる。
そこで本研究では,異なる特徴マップ解像度のポーズ仮説を並列に作成するための,特殊な特徴ピラミッドネットワークに基づく新しい手法を提案する。
我々の単発ポーズ推定アプローチは、複数の標準データセットで評価され、アートの状態を最大35%向上させる。
また, 合成データを用いた新しい環境への一般化の利点を実証するために, 実世界における把持実験を行う。
関連論文リスト
- Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Neural-Sim: Learning to Generate Training Data with NeRF [31.81496344354997]
本稿では,ニューラルレージアンスフィールド(NeRF)を対象アプリケーションの損失関数を持つ閉ループに使用した,最初の完全微分可能な合成データパイプラインを提案する。
提案手法は,人的負担を伴わないオンデマンドでデータを生成し,目標タスクの精度を最大化する。
論文 参考訳(メタデータ) (2022-07-22T22:48:33Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Improving Deep Stereo Network Generalization with Geometric Priors [93.09496073476275]
地上の真実が密集した多様な現実世界のシーンの大規模なデータセットを得ることは困難である。
多くのアルゴリズムは、似たようなシーンや合成データセットの小さな実世界のデータセットに依存している。
本稿では,シーン幾何学の事前知識をエンド・ツー・エンドのステレオネットワークに統合し,ネットワークの一般化を支援することを提案する。
論文 参考訳(メタデータ) (2020-08-25T15:24:02Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。