論文の概要: Self-supervised Vision Transformers for 3D Pose Estimation of Novel
Objects
- arxiv url: http://arxiv.org/abs/2306.00129v1
- Date: Wed, 31 May 2023 19:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:47:55.150520
- Title: Self-supervised Vision Transformers for 3D Pose Estimation of Novel
Objects
- Title(参考訳): 自己教師付き視覚トランスフォーマによる新規物体の3次元ポーズ推定
- Authors: Stefan Thalhammer and Jean-Baptiste Weibel and Markus Vincze and Jose
Garcia-Rodriguez
- Abstract要約: この研究は、深いテンプレートマッチングのための自己教師付きCNNとビジョントランスフォーマーの違いを評価し、実証する。
より詳しくは、どちらのタイプのアプローチも、対照的な学習を用いてトレーニングイメージと、孤立したオブジェクトのレンダリングテンプレートとのマッチングを訓練する。
- 参考スコア(独自算出の注目度): 15.01623452269803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object pose estimation is important for object manipulation and scene
understanding. In order to improve the general applicability of pose
estimators, recent research focuses on providing estimates for novel objects,
that is objects unseen during training. Such works use deep template matching
strategies to retrieve the closest template connected to a query image. This
template retrieval implicitly provides object class and pose. Despite the
recent success and improvements of Vision Transformers over CNNs for many
vision tasks, the state of the art uses CNN-based approaches for novel object
pose estimation. This work evaluates and demonstrates the differences between
self-supervised CNNs and Vision Transformers for deep template matching. In
detail, both types of approaches are trained using contrastive learning to
match training images against rendered templates of isolated objects. At test
time, such templates are matched against query images of known and novel
objects under challenging settings, such as clutter, occlusion and object
symmetries, using masked cosine similarity. The presented results not only
demonstrate that Vision Transformers improve in matching accuracy over CNNs,
but also that for some cases pre-trained Vision Transformers do not need
fine-tuning to do so. Furthermore, we highlight the differences in optimization
and network architecture when comparing these two types of network for deep
template matching.
- Abstract(参考訳): オブジェクトのポーズ推定は、オブジェクト操作とシーン理解に重要である。
ポーズ推定装置の一般的な適用性を改善するため,近年の研究では,トレーニング中に見つからない新しい物体に対する推定値の提供に焦点が当てられている。
このような作業では、深いテンプレートマッチング戦略を使用して、クエリイメージに接続された最も近いテンプレートを検索する。
このテンプレート検索は暗黙的にオブジェクトクラスとポーズを提供します。
多くの視覚タスクでcnnよりも視覚トランスフォーマーが成功し、改善されているにもかかわらず、最先端の技術はcnnベースのアプローチを使って新しいオブジェクトポーズ推定を行っている。
本研究は,深いテンプレートマッチングのための自己教師付きcnnと視覚トランスフォーマとの差異を評価し,実証する。
より詳しくは、どちらのタイプのアプローチも、対照的な学習を用いてトレーニング画像と独立したオブジェクトのテンプレートとのマッチングを訓練する。
テスト時に、このようなテンプレートは、マスク付きコサイン類似性を使用して、クラッタ、オクルージョン、オブジェクト対称性などの困難な設定下で、既知のおよび新しいオブジェクトのクエリイメージとマッチングされる。
以上の結果から,視覚トランスフォーマはcnnよりも精度が向上するだけでなく,事前学習された視覚トランスフォーマは微調整を必要としない場合もある。
さらに,これら2種類のネットワークを深層テンプレートマッチングで比較する場合,最適化とネットワークアーキテクチャの違いを強調した。
関連論文リスト
- Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Object-wise Masked Autoencoders for Fast Pre-training [13.757095663704858]
現在のマスク付き画像符号化モデルは、単一のオブジェクト表現ではなく、シーン全体のすべてのオブジェクト間の基盤となる関係を学習することを示す。
興味のある領域マスクを用いて選択的な再構成を行うことで、オブジェクトの表現を学習するための非オブジェクトパッチをドロップする、新しいオブジェクト選択と分割戦略を導入する。
4つの一般的なデータセットの実験は、競争性能を達成しつつ計算コストを72%削減する上で、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2022-05-28T05:13:45Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。