論文の概要: Fine-Tuned but Zero-Shot 3D Shape Sketch View Similarity and Retrieval
- arxiv url: http://arxiv.org/abs/2306.08541v2
- Date: Thu, 27 Jul 2023 10:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 19:42:30.345906
- Title: Fine-Tuned but Zero-Shot 3D Shape Sketch View Similarity and Retrieval
- Title(参考訳): 微調整・ゼロショット3次元形状スケッチビューの類似性と検索
- Authors: Gianluca Berardi and Yulia Gryaditskaya
- Abstract要約: ゼロショット設定では、スケッチが抽象的になるほど、誤った画像が一致する可能性が高くなることを示す。
我々の研究の重要な発見の1つは、ある種類の3次元形状を巧妙に微調整することで、他の形状のクラスの性能が向上することである。
- 参考スコア(独自算出の注目度): 8.540349872620993
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, encoders like ViT (vision transformer) and ResNet have been trained
on vast datasets and utilized as perceptual metrics for comparing sketches and
images, as well as multi-domain encoders in a zero-shot setting. However, there
has been limited effort to quantify the granularity of these encoders. Our work
addresses this gap by focusing on multi-modal 2D projections of individual 3D
instances. This task holds crucial implications for retrieval and sketch-based
modeling. We show that in a zero-shot setting, the more abstract the sketch,
the higher the likelihood of incorrect image matches. Even within the same
sketch domain, sketches of the same object drawn in different styles, for
example by distinct individuals, might not be accurately matched. One of the
key findings of our research is that meticulous fine-tuning on one class of 3D
shapes can lead to improved performance on other shape classes, reaching or
surpassing the accuracy of supervised methods. We compare and discuss several
fine-tuning strategies. Additionally, we delve deeply into how the scale of an
object in a sketch influences the similarity of features at different network
layers, helping us identify which network layers provide the most accurate
matching. Significantly, we discover that ViT and ResNet perform best when
dealing with similar object scales. We believe that our work will have a
significant impact on research in the sketch domain, providing insights and
guidance on how to adopt large pretrained models as perceptual losses.
- Abstract(参考訳): 近年、ViT (vision transformer) やResNetのようなエンコーダは膨大なデータセットでトレーニングされており、スケッチや画像の比較やゼロショット設定でのマルチドメインエンコーダなどの知覚的指標として利用されている。
しかし、これらのエンコーダの粒度を定量化する努力は限られている。
我々の研究は、個々の3Dインスタンスのマルチモーダル2Dプロジェクションに焦点を当てることで、このギャップに対処する。
このタスクは検索とスケッチベースのモデリングに重要な意味を持っている。
ゼロショット設定では、スケッチが抽象的になるほど、誤った画像が一致する可能性が高くなることを示す。
同じスケッチ領域内でも、例えば異なる個人によって異なるスタイルで描かれた同じオブジェクトのスケッチは正確には一致しないかもしれない。
我々の研究の重要な発見の1つは、ある種類の3次元形状の精密な微調整によって、他の形状のクラスの性能が向上し、監督された手法の精度を達成または超える可能性があることである。
いくつかの微調整戦略を比較し議論する。
さらに、スケッチ中のオブジェクトのスケールが異なるネットワーク層における機能の類似性にどのように影響するかを深く調べ、どのネットワーク層が最も正確なマッチングを提供するかを特定するのに役立ちます。
重要なことに、同様のオブジェクトスケールを扱う場合、ViTとResNetが最適であることがわかった。
我々の研究はスケッチ領域の研究に大きな影響を与え、知覚的損失として大規模な事前学習モデルを採用する方法についての洞察とガイダンスを提供するだろうと考えています。
関連論文リスト
- Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。
我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。
本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文 参考訳(メタデータ) (2024-04-18T17:37:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Structure-Aware 3D VR Sketch to 3D Shape Retrieval [113.20120789493217]
われわれは3DVRのスケッチに固有の不正確さによって引き起こされる課題に注目している。
我々は「適合ギャップ」によって引き起こされる適応利得値を持つ三重項損失を用いることを提案する。
観察からではなく、記憶から描かれた202個の3次元形状のための202個のVRスケッチのデータセットを紹介した。
論文 参考訳(メタデータ) (2022-09-19T14:29:26Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - A Closer Look at Invariances in Self-supervised Pre-training for 3D
Vision [0.0]
3Dビジョンのための自己監督型事前訓練は近年研究の関心が高まっている。
本稿では,様々な事前学習手法を検証可能な統合フレームワークを提案する。
コントラスト学習を用いた3次元エンコーダと深度マップエンコーダを併用した簡易かつ効果的な事前学習法を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:15Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - Zero in on Shape: A Generic 2D-3D Instance Similarity Metric learned
from Synthetic Data [3.71630298053787]
本稿では,RGB画像と非テクスチャ型3Dモデルとを表現形状の類似性で比較するネットワークアーキテクチャを提案する。
我々のシステムはゼロショット検索に最適化されており、訓練で示されることのない形状を認識することができる。
論文 参考訳(メタデータ) (2021-08-09T14:44:08Z) - Contrastive Spatial Reasoning on Multi-View Line Drawings [11.102238863932255]
SPARE3Dデータセットでは、最先端の監視されたディープネットワークが低パフォーマンスのパズルを見せます。
ベースライン性能を向上させるために、他のネットワーク変更とともに単純な対比学習アプローチを提案します。
提案手法では,自己教師付きバイナリ分類ネットワークを用いて,類似する2種類の3dオブジェクトのさまざまなビュー間の線描画の違いを比較する。
論文 参考訳(メタデータ) (2021-04-27T19:05:27Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。