論文の概要: Unsupervised Keypoints from Pretrained Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.00065v3
- Date: Tue, 21 May 2024 22:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 20:04:03.351135
- Title: Unsupervised Keypoints from Pretrained Diffusion Models
- Title(参考訳): 予混合拡散モデルによる教師なしキーポイント
- Authors: Eric Hedlin, Gopal Sharma, Shweta Mahajan, Xingzhe He, Hossam Isack, Abhishek Kar Helge Rhodin, Andrea Tagliasacchi, Kwang Moo Yi,
- Abstract要約: 我々は、テキストから画像への拡散モデルにおける創発的な知識を、より堅牢な教師なしキーポイントに活用する。
私たちの中核となる考え方は、生成モデルが画像のコンパクトな領域に一貫して従う原因となるテキスト埋め込みを見つけることです。
CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion、Human3.6mのデータセットでパフォーマンスを検証する。
- 参考スコア(独自算出の注目度): 31.147785019795347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised learning of keypoints and landmarks has seen significant progress with the help of modern neural network architectures, but performance is yet to match the supervised counterpart, making their practicability questionable. We leverage the emergent knowledge within text-to-image diffusion models, towards more robust unsupervised keypoints. Our core idea is to find text embeddings that would cause the generative model to consistently attend to compact regions in images (i.e. keypoints). To do so, we simply optimize the text embedding such that the cross-attention maps within the denoising network are localized as Gaussians with small standard deviations. We validate our performance on multiple datasets: the CelebA, CUB-200-2011, Tai-Chi-HD, DeepFashion, and Human3.6m datasets. We achieve significantly improved accuracy, sometimes even outperforming supervised ones, particularly for data that is non-aligned and less curated. Our code is publicly available and can be found through our project page: https://ubc-vision.github.io/StableKeypoints/
- Abstract(参考訳): キーポイントとランドマークの教師なし学習は、現代のニューラルネットワークアーキテクチャの助けを借りて大きな進歩を遂げている。
我々は、テキストから画像への拡散モデルにおける創発的な知識を、より堅牢な教師なしキーポイントに活用する。
私たちの中核となる考え方は、生成モデルが画像中のコンパクトな領域(すなわちキーポイント)に一貫して従う原因となるテキスト埋め込みを見つけることである。
そのため,本手法では,最小限の標準偏差を持つガウス系として,デノナイジングネットワーク内のクロスアテンションマップをローカライズするように,テキスト埋め込みを最適化する。
CelebA、CUB-200-2011、Tai-Chi-HD、DeepFashion、Human3.6mのデータセットでパフォーマンスを検証する。
精度が大幅に向上し、時には教師付きデータよりも優れています。
私たちのコードは公開されており、プロジェクトのページで確認できる。
関連論文リスト
- Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文 参考訳(メタデータ) (2023-12-11T23:50:14Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Deep vanishing point detection: Geometric priors make dataset variations
vanish [24.348651041697114]
ディープラーニングは画像の消滅点検出を改善した。
しかし、ディープネットワークは高価なハードウェアでトレーニングされた高価なアノテートデータセットを必要とする。
ここでは、これらの問題に対して、事前知識で深い消滅点検出ネットワークを注入することで対処する。
論文 参考訳(メタデータ) (2022-03-16T12:34:27Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - BDC: Bounding-Box Deep Calibration for High Performance Face Detection [11.593495085674345]
現代のCNNベースの顔検出器は、大きなアノテートデータセットのため、大きな進歩を遂げている。
検出信頼性が高いが、ローカライゼーション精度の低い結果が一致しないと、検出性能がさらに向上する。
本稿では,一貫性のないアノテーションをモデル予測バウンディングボックスで合理的に置き換える新しいバウンディングボックスディープ(BDC)法を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:41:41Z) - Accurate Grid Keypoint Learning for Efficient Video Prediction [87.71109421608232]
キーポイントベースのビデオ予測手法は、トレーニングやデプロイメントにおいて、かなりの計算資源を消費することができる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
提案手法は,計算資源の98%以上を節約しつつ,最先端のビデオ予測手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-28T05:04:30Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。