論文の概要: Pose Augmentation: Class-agnostic Object Pose Transformation for Object
Recognition
- arxiv url: http://arxiv.org/abs/2003.08526v4
- Date: Thu, 14 Jan 2021 02:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:14:24.877414
- Title: Pose Augmentation: Class-agnostic Object Pose Transformation for Object
Recognition
- Title(参考訳): ポーズ拡張:オブジェクト認識のためのクラス非依存オブジェクトポーズ変換
- Authors: Yunhao Ge, Jiaping Zhao and Laurent Itti
- Abstract要約: クラスに依存しないオブジェクトポーズ変換ネットワーク(OPT-Net)を提案する。
OPT-Netは、3Dヨーとピッチ軸に沿って画像を変換し、追加のポーズを連続的に合成することができる。
OPT-Netはヤウとピッチ軸に沿ったバランスの取れた連続したポーズを高品質に合成できることを示す。
- 参考スコア(独自算出の注目度): 20.303656145222856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object pose increases intraclass object variance which makes object
recognition from 2D images harder. To render a classifier robust to pose
variations, most deep neural networks try to eliminate the influence of pose by
using large datasets with many poses for each class. Here, we propose a
different approach: a class-agnostic object pose transformation network
(OPT-Net) can transform an image along 3D yaw and pitch axes to synthesize
additional poses continuously. Synthesized images lead to better training of an
object classifier. We design a novel eliminate-add structure to explicitly
disentangle pose from object identity: first eliminate pose information of the
input image and then add target pose information (regularized as continuous
variables) to synthesize any target pose. We trained OPT-Net on images of toy
vehicles shot on a turntable from the iLab-20M dataset. After training on
unbalanced discrete poses (5 classes with 6 poses per object instance, plus 5
classes with only 2 poses), we show that OPT-Net can synthesize balanced
continuous new poses along yaw and pitch axes with high quality. Training a
ResNet-18 classifier with original plus synthesized poses improves mAP accuracy
by 9% overtraining on original poses only. Further, the pre-trained OPT-Net can
generalize to new object classes, which we demonstrate on both iLab-20M and
RGB-D. We also show that the learned features can generalize to ImageNet.
- Abstract(参考訳): オブジェクトポーズはクラス内のオブジェクト分散を増加させ、2d画像からのオブジェクト認識を困難にする。
分類器を頑健にレンダリングするために、ほとんどのディープニューラルネットワークは、各クラスに多くのポーズを持つ大きなデータセットを使用することで、ポーズの影響を排除しようとする。
本稿では,3次元ヨーとピッチ軸に沿って画像を変換して連続的に追加のポーズを合成する,クラス非依存のオブジェクトポーズ変換ネットワーク(OPT-Net)を提案する。
合成画像はオブジェクト分類器のより良いトレーニングにつながる。
まず、入力された画像のポーズ情報を排除し、ターゲットのポーズ情報を(連続変数として正規化)追加して、ターゲットのポーズを合成する。
我々は、iLab-20Mデータセットからターンテーブルで撮影されたおもちゃの車両の画像に基づいてOPT-Netを訓練した。
不均衡な個別ポーズ(オブジェクトインスタンス毎に6つのポーズを持つ5クラスと2つのポーズを持つ5クラス)をトレーニングした後、OPT-Netはヤウとピッチ軸に沿ったバランスの取れた連続的な新しいポーズを高品質に合成できることを示す。
resnet-18分類器をオリジナルプラス合成ポーズで訓練することで、マップ精度が9%向上する。
さらに、事前学習されたPT-Netは、iLab-20MとRGB-Dの両方で、新しいオブジェクトクラスに一般化することができる。
また、学習した機能がimagenetに一般化できることも示します。
関連論文リスト
- Learning a Category-level Object Pose Estimator without Pose Annotations [37.03715008347576]
ポーズアノテーションを使わずにカテゴリレベルの3Dオブジェクトのポーズ推定を学習することを提案する。
手動でアノテートされた画像を使用する代わりに、拡散モデルを利用して、制御されたポーズ差の下で一連の画像を生成する。
提案手法は,単一ショット設定からカテゴリレベルのオブジェクトポーズ推定を行う能力を有することを示す。
論文 参考訳(メタデータ) (2024-04-08T15:59:29Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Generalizable Pose Estimation Using Implicit Scene Representations [4.124185654280966]
6-DoFのポーズ推定は、ロボット操作パイプラインの重要なコンポーネントである。
本稿では,異なるポーズで表現できる十分な情報を含むモデルを用いたポーズ推定の一般化能力について論じる。
最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-26T20:42:52Z) - PoseMatcher: One-shot 6D Object Pose Estimation by Deep Feature Matching [51.142988196855484]
本稿では,PoseMatcherを提案する。
3ビューシステムに基づくオブジェクトと画像のマッチングのための新しいトレーニングパイプラインを作成します。
PoseMatcherは、画像とポイントクラウドの異なる入力モダリティに対応できるように、IO-Layerを導入します。
論文 参考訳(メタデータ) (2023-04-03T21:14:59Z) - NOPE: Novel Object Pose Estimation from a Single Image [67.11073133072527]
本稿では,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルに関する事前知識を必要とせずに,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。
我々は、オブジェクトを取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することで、これを実現する。
この予測は単純なU-Netアーキテクチャを用いて行われ、要求されたポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2023-03-23T18:55:43Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Domain Adaptation of Networks for Camera Pose Estimation: Learning
Camera Pose Estimation Without Pose Labels [8.409695277909421]
ディープラーニングの重要な批判の1つは、モデルをトレーニングするためには、大量の高価で入手困難なトレーニングデータが必要であることである。
DANCEは、ターゲットタスクのラベルにアクセスせずにモデルのトレーニングを可能にする。
ラベル付き合成画像を3Dモデルからレンダリングし、合成画像と実際の画像の間に必然的な領域ギャップを埋める。
論文 参考訳(メタデータ) (2021-11-29T17:45:38Z) - PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose
Estimation [83.50127973254538]
既存の3D人間のポーズ推定器は、新しいデータセットへの一般化性能が悪い。
PoseAugは、より多くの多様性に向けて利用可能なトレーニングのポーズを強化することを学ぶ新しい自動増強フレームワークです。
論文 参考訳(メタデータ) (2021-05-06T06:57:42Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale
Consistency [43.09728251735362]
2Dオブジェクト境界ボックスから6DoFオブジェクトポーズを得るための2ステップポーズ推定フレームワークを提案する。
最初のステップでは、フレームワークはオブジェクトを実際のデータと合成データからセグメンテーションすることを学ぶ。
第2のステップでは,dsc-posenetという,デュアルスケールなポーズ推定ネットワークを設計する。
提案手法は,合成データに基づいて訓練した最先端のモデルよりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2021-04-08T10:19:35Z) - DualPoseNet: Category-level 6D Object Pose and Size Estimation using
Dual Pose Network with Refined Learning of Pose Consistency [30.214100288708163]
カテゴリーレベルの6Dオブジェクトのポーズとサイズ推定は、オブジェクトインスタンスの回転、翻訳、サイズの設定を9自由度(9DoF)で予測する。
本稿では,この課題に対するポーズ一貫性の学習を洗練し,DualPoseNetと略記したDual Pose Networkを提案する。
論文 参考訳(メタデータ) (2021-03-11T08:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。