論文の概要: 3D-Augmented Contrastive Knowledge Distillation for Image-based Object
Pose Estimation
- arxiv url: http://arxiv.org/abs/2206.02531v1
- Date: Thu, 2 Jun 2022 16:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 14:04:17.112023
- Title: 3D-Augmented Contrastive Knowledge Distillation for Image-based Object
Pose Estimation
- Title(参考訳): 画像を用いた物体位置推定のための3次元コントラスト知識蒸留法
- Authors: Zhidan Liu, Zhen Xing, Xiangdong Zhou, Yijiang Chen, Guichun Zhou
- Abstract要約: トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。
マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。
我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
- 参考スコア(独自算出の注目度): 4.415086501328683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based object pose estimation sounds amazing because in real
applications the shape of object is oftentimes not available or not easy to
take like photos. Although it is an advantage to some extent, un-explored shape
information in 3D vision learning problem looks like "flaws in jade". In this
paper, we deal with the problem in a reasonable new setting, namely 3D shape is
exploited in the training process, and the testing is still purely image-based.
We enhance the performance of image-based methods for category-agnostic object
pose estimation by exploiting 3D knowledge learned by a multi-modal method.
Specifically, we propose a novel contrastive knowledge distillation framework
that effectively transfers 3D-augmented image representation from a multi-modal
model to an image-based model. We integrate contrastive learning into the
two-stage training procedure of knowledge distillation, which formulates an
advanced solution to combine these two approaches for cross-modal tasks. We
experimentally report state-of-the-art results compared with existing
category-agnostic image-based methods by a large margin (up to +5% improvement
on ObjectNet3D dataset), demonstrating the effectiveness of our method.
- Abstract(参考訳): 実際のアプリケーションでは、オブジェクトの形状はしばしば利用できないか、写真のように簡単に撮れないため、画像ベースのオブジェクトのポーズ推定は驚くべきように聞こえる。
ある程度の利点はあるが、3d視覚学習問題における未探索の形状情報は「ジャイドの爪」のように見える。
本稿では,3次元形状をトレーニングプロセスで活用し,テストは依然として純粋に画像ベースである,合理的な新しい設定でこの問題に対処する。
マルチモーダル手法で学習した3D知識を活用し,カテゴリに依存しないオブジェクトポーズ推定のための画像ベース手法の性能を向上させる。
具体的には,マルチモーダルモデルから画像ベースモデルへ3次元画像表現を効果的に転送する,新しいコントラスト知識蒸留フレームワークを提案する。
比較学習を知識蒸留の2段階の学習手順に統合し,これら2つの手法を交叉モーダルタスクに組み合わせるための高度な解法を定式化する。
提案手法の有効性を実証し,既存のカテゴリに依存しない画像ベース手法と比較して実験結果(ObjectNet3Dデータセットで最大5%改善)を報告する。
関連論文リスト
- Learning 3D-Aware GANs from Unposed Images with Template Feature Field [33.32761749864555]
この研究は、未提示の画像から3D対応のGANを学習することを目的としている。
学習テンプレート特徴場(TeFF)を用いたトレーニング画像のオンザフライポーズ推定を提案する。
論文 参考訳(メタデータ) (2024-04-08T17:42:08Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - End-to-End Learning of Multi-category 3D Pose and Shape Estimation [128.881857704338]
本稿では,画像から2次元キーポイントを同時に検出し,それらを3次元に引き上げるエンド・ツー・エンド手法を提案する。
提案手法は2次元キーポイントアノテーションからのみ2次元検出と3次元リフトを学習する。
画像から3D学習へのエンドツーエンド化に加えて,1つのニューラルネットワークを用いて複数のカテゴリからのオブジェクトも処理する。
論文 参考訳(メタデータ) (2021-12-19T17:10:40Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - PoseContrast: Class-Agnostic Object Viewpoint Estimation in the Wild
with Pose-Aware Contrastive Learning [23.608940131120637]
3次元形状の知識を持たず,クラス非依存な3次元物体ポーズ推定の課題を考察する。
このアイデアは、目に見えないクラスのポーズを推定するために、観測されたクラスで学んだ機能を利用していますが、同様のジオメトリと正規フレームを観測されたクラスと共有します。
追加形状情報を使用する方法や検出された境界ボックスを使用する場合を含め,最先端の結果を報告する。
論文 参考訳(メタデータ) (2021-05-12T13:21:24Z) - Using Shape to Categorize: Low-Shot Learning with an Explicit Shape Bias [22.863686803150625]
低ショット学習手法の一般化性能向上のために,3次元形状の推論をいかに活用できるかを検討する。
3Dオブジェクト形状を用いた識別埋め込み空間の学習により,既存の低ショット学習手法を改善する新しい方法を提案する。
また、低ショット学習もサポートできる最大数のオブジェクトカテゴリを持つ新しい3DオブジェクトデータセットであるToys4Kも開発しています。
論文 参考訳(メタデータ) (2021-01-18T19:29:41Z) - 3D Registration for Self-Occluded Objects in Context [66.41922513553367]
このシナリオを効果的に処理できる最初のディープラーニングフレームワークを紹介します。
提案手法はインスタンスセグメンテーションモジュールとポーズ推定モジュールから構成される。
これにより、高価な反復手順を必要とせず、ワンショットで3D登録を行うことができます。
論文 参考訳(メタデータ) (2020-11-23T08:05:28Z) - 3D Human Shape and Pose from a Single Low-Resolution Image with
Self-Supervised Learning [105.49950571267715]
3次元人物形状とポーズ推定のための既存のディープラーニング手法は、比較的高解像度な入力画像に依存している。
本稿では,レゾリューション・アウェア・ネットワーク,セルフ・スーパービジョン・ロス,コントラッシブ・ラーニング・スキームからなるRCC-Netを提案する。
これら2つの新たなトレーニング損失は,3次元形状を学習し,弱教師ありの姿勢を示す。
論文 参考訳(メタデータ) (2020-07-27T16:19:52Z) - Learning Pose-invariant 3D Object Reconstruction from Single-view Images [61.98279201609436]
本稿では,単視点画像のみから3次元形状を学習する,より現実的な構成について検討する。
最大の難しさは、単一のビューイメージが提供できる制約の不足にある。
本稿では, 対角コンパクトな形状空間を学習するために, 効果的な対角領域混同法を提案する。
論文 参考訳(メタデータ) (2020-04-03T02:47:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。