論文の概要: Zero-Shot 3D Shape Sketch View Similarity and Retrieval
- arxiv url: http://arxiv.org/abs/2306.08541v1
- Date: Wed, 14 Jun 2023 14:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 18:36:53.358167
- Title: Zero-Shot 3D Shape Sketch View Similarity and Retrieval
- Title(参考訳): ゼロショット3次元形状スケッチビューの類似性と検索
- Authors: Gianluca Berardi and Yulia Gryaditskaya
- Abstract要約: プレテキストタスクのViTとResNetで事前学習する能力について詳細に検討する。
個々の3次元形状の2次元スケッチビューのペア間の類似性を定量化する。
モデルが類似したビューと地上3D形状を検索する能力の観点から,その性能を評価する。
- 参考スコア(独自算出の注目度): 8.540349872620993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We conduct a detailed study of the ability of pretrained on pretext tasks ViT
and ResNet feature layers to quantify the similarity between pairs of 2D sketch
views of individual 3D shapes. We assess the performance in terms of the
models' abilities to retrieve similar views and ground-truth 3D shapes. Going
beyond naive zero-shot performance study, we investigate alternative
fine-tuning strategies on one or several shape classes, and their
generalization to other shape classes. Leveraging progress in NPR (Non-Photo
Realistic) rendering, we generate synthetic sketch views in several styles
which we use to fine-tune pretrained foundation models using contrastive
learning. We study how the scale of an object in a sketch affects the
similarity of features at different network layers. We observe that depending
on the scale, different feature layers can be more indicative of shape
similarities in sketch views. However, we find that similar object scales
result in the best performance of ViT and ResNet. In summary, we show that
careful selection of a fine-tuning strategy allows us to obtain consistent
improvement in zero-shot shape retrieval accuracy. We believe that our work
will have a significant impact on research in the sketch domain, providing
insights and guidance on how to adopt large pretrained models as perceptual
losses.
- Abstract(参考訳): プリテキストタスクのViTとResNetの特徴層に基づいて事前学習を行い、個々の3次元形状の2次元スケッチビューのペア間の類似性を定量化する。
モデルが類似したビューと地上3D形状を検索する能力の観点から性能を評価する。
ゼロショット性能研究の先駆けとして、1つまたは複数の形状クラスにおける代替微調整戦略とその他の形状クラスへの一般化について検討する。
NPR(Non-Photo Realistic)レンダリングの進歩を利用して、コントラスト学習を用いた事前学習基礎モデルの微調整に使用する複数のスタイルで合成スケッチビューを生成する。
スケッチ中のオブジェクトのスケールが,異なるネットワーク層における特徴の類似性に与える影響について検討する。
スケールによって異なる特徴層がスケッチビューにおける形状の類似性を示すことが観察できる。
しかし、同様のオブジェクトスケールがvitとresnetの最高のパフォーマンスをもたらすことが分かりました。
要約すると, 微調整戦略の慎重な選択により, ゼロショット形状検索精度の一貫した改善が得られることを示す。
我々の研究はスケッチ領域の研究に大きな影響を与え、知覚的損失として大規模な事前学習モデルを採用する方法についての洞察とガイダンスを提供するだろうと考えています。
関連論文リスト
- Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Structure-Aware 3D VR Sketch to 3D Shape Retrieval [113.20120789493217]
われわれは3DVRのスケッチに固有の不正確さによって引き起こされる課題に注目している。
我々は「適合ギャップ」によって引き起こされる適応利得値を持つ三重項損失を用いることを提案する。
観察からではなく、記憶から描かれた202個の3次元形状のための202個のVRスケッチのデータセットを紹介した。
論文 参考訳(メタデータ) (2022-09-19T14:29:26Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Zero in on Shape: A Generic 2D-3D Instance Similarity Metric learned
from Synthetic Data [3.71630298053787]
本稿では,RGB画像と非テクスチャ型3Dモデルとを表現形状の類似性で比較するネットワークアーキテクチャを提案する。
我々のシステムはゼロショット検索に最適化されており、訓練で示されることのない形状を認識することができる。
論文 参考訳(メタデータ) (2021-08-09T14:44:08Z) - Contrastive Spatial Reasoning on Multi-View Line Drawings [11.102238863932255]
SPARE3Dデータセットでは、最先端の監視されたディープネットワークが低パフォーマンスのパズルを見せます。
ベースライン性能を向上させるために、他のネットワーク変更とともに単純な対比学習アプローチを提案します。
提案手法では,自己教師付きバイナリ分類ネットワークを用いて,類似する2種類の3dオブジェクトのさまざまなビュー間の線描画の違いを比較する。
論文 参考訳(メタデータ) (2021-04-27T19:05:27Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。