論文の概要: SHIC: Shape-Image Correspondences with no Keypoint Supervision
- arxiv url: http://arxiv.org/abs/2407.18907v1
- Date: Fri, 26 Jul 2024 17:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:39:55.408626
- Title: SHIC: Shape-Image Correspondences with no Keypoint Supervision
- Title(参考訳): ShiC:キーポイント・スーパービジョンなしの形状対応
- Authors: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi,
- Abstract要約: 正準曲面マッピングは、オブジェクトの各ピクセルを3Dテンプレートの対応する点に割り当てることで、キーポイント検出を一般化する。
人間の分析のためにDensePoseによって人気を得た著者は、この概念をより多くのカテゴリに適用しようと試みている。
そこで本研究では,手動による指導を伴わない標準地図学習手法ShiCを紹介し,ほとんどのカテゴリにおいて教師付き手法よりも優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 106.99157362200867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Canonical surface mapping generalizes keypoint detection by assigning each pixel of an object to a corresponding point in a 3D template. Popularised by DensePose for the analysis of humans, authors have since attempted to apply the concept to more categories, but with limited success due to the high cost of manual supervision. In this work, we introduce SHIC, a method to learn canonical maps without manual supervision which achieves better results than supervised methods for most categories. Our idea is to leverage foundation computer vision models such as DINO and Stable Diffusion that are open-ended and thus possess excellent priors over natural categories. SHIC reduces the problem of estimating image-to-template correspondences to predicting image-to-image correspondences using features from the foundation models. The reduction works by matching images of the object to non-photorealistic renders of the template, which emulates the process of collecting manual annotations for this task. These correspondences are then used to supervise high-quality canonical maps for any object of interest. We also show that image generators can further improve the realism of the template views, which provide an additional source of supervision for the model.
- Abstract(参考訳): 正準曲面マッピングは、オブジェクトの各ピクセルを3Dテンプレートの対応する点に割り当てることで、キーポイント検出を一般化する。
人間の分析のためにDensePoseによって人気を博した著者たちは、この概念をより多くのカテゴリーに適用しようとしたが、手作業による監督のコストが高いため、成功しなかった。
そこで本研究では,手動による指導を伴わずに標準地図を学習するShiCを紹介し,ほとんどのカテゴリにおいて教師付き手法よりも優れた結果が得られることを示す。
我々の考えは、DINOやStable Diffusionなどの基礎的なコンピュータビジョンモデルを活用することであり、これはオープンエンドであり、自然カテゴリーよりも優れた先行性を持つ。
ShiCは、基礎モデルの特徴を用いた画像から画像への対応を予測し、画像からテンプレートへの対応を推定する問題を低減している。
このリダクションは、オブジェクトのイメージとテンプレートの非フォトリアリスティックなレンダリングとをマッチングすることで機能し、このタスクのために手動のアノテーションを収集するプロセスをエミュレートする。
これらの対応は、任意の関心対象に対して高品質な標準写像を監督するために使用される。
また、画像生成装置はテンプレートビューのリアリズムをさらに改善し、モデルに対するさらなる監視源を提供することを示す。
関連論文リスト
- NPC: Neural Point Characters from Video [21.470471345454524]
高忠実な人間の3Dモデルは、ビデオから直接学ぶことができる。
以前の方法はテンプレートの使用を避けるが、観測から標準空間への高コストあるいは不適切なマッピングに依存していた。
アニマタブルな文字を再構成するためのハイブリッドなポイントベース表現を提案する。
論文 参考訳(メタデータ) (2023-04-04T17:59:22Z) - Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion [74.30861504619851]
本研究は,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールの不完全性のため、標準ビュー画像は、原画像から識別的な詳細手がかりを失う可能性がある。
提案手法は,各種評価設定における既存手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-12-05T16:24:09Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Learning Generative Models of Textured 3D Meshes from Real-World Images [26.353307246909417]
このようなアノテーションを使わずに,テクスチャ付きトライアングルメッシュを生成するganフレームワークを提案する。
我々のアプローチのパフォーマンスは、基礎となるキーポイントに依存する以前の作業と同等であることを示します。
論文 参考訳(メタデータ) (2021-03-29T14:07:37Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Implicit Mesh Reconstruction from Unannotated Image Collections [48.85604987196472]
本稿では,1枚のRGB画像から3次元形状,テクスチャ,カメラのポーズを推定する手法を提案する。
この形状を画像条件付暗黙関数として表現し、球面を予測メッシュのそれに変換するとともに、対応するテクスチャを予測する。
論文 参考訳(メタデータ) (2020-07-16T17:55:20Z) - Novel Object Viewpoint Estimation through Reconstruction Alignment [45.16865218423492]
我々は、新しい対象の視点を推定するために再構成と整合性アプローチを学ぶ。
具体的には、2つのネットワークを学習することを提案する。最初の1つは3次元幾何学的特徴ボトルネックに画像をマッピングし、画像から画像への変換損失を学習する。
テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
論文 参考訳(メタデータ) (2020-06-05T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。