論文の概要: ASIC: Aligning Sparse in-the-wild Image Collections
- arxiv url: http://arxiv.org/abs/2303.16201v1
- Date: Tue, 28 Mar 2023 17:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-29 13:55:47.561367
- Title: ASIC: Aligning Sparse in-the-wild Image Collections
- Title(参考訳): ASIC: 幅の狭いイメージコレクションの調整
- Authors: Kamal Gupta, Varun Jampani, Carlos Esteves, Abhinav Shrivastava,
Ameesh Makadia, Noah Snavely, Abhishek Kar
- Abstract要約: 本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
- 参考スコア(独自算出の注目度): 86.66498558225625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for joint alignment of sparse in-the-wild image
collections of an object category. Most prior works assume either ground-truth
keypoint annotations or a large dataset of images of a single object category.
However, neither of the above assumptions hold true for the long-tail of the
objects present in the world. We present a self-supervised technique that
directly optimizes on a sparse collection of images of a particular
object/object category to obtain consistent dense correspondences across the
collection. We use pairwise nearest neighbors obtained from deep features of a
pre-trained vision transformer (ViT) model as noisy and sparse keypoint matches
and make them dense and accurate matches by optimizing a neural network that
jointly maps the image collection into a learned canonical grid. Experiments on
CUB and SPair-71k benchmarks demonstrate that our method can produce globally
consistent and higher quality correspondences across the image collection when
compared to existing self-supervised methods. Code and other material will be
made available at \url{https://kampta.github.io/asic}.
- Abstract(参考訳): 本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
ほとんどの先行研究は、基幹のキーポイントアノテーションか、単一のオブジェクトカテゴリの画像の大規模なデータセットを前提としています。
しかし、これらの仮定はいずれも、世界に存在する物体のロングテールについて当てはまらない。
本稿では,特定の対象/対象カテゴリの画像の分散コレクションに対して,コレクション全体にわたって一貫した密対応を得るために直接最適化する自己教師あり手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴をノイズとスパースなキーポイントマッチングとして使用し、ニューラルネットワークを最適化して、画像コレクションを学習された正準格子に一緒にマッピングすることで、それらを密かつ正確なマッチングにします。
CUB と SPair-71k のベンチマーク実験により,既存の自己教師型手法と比較して,画像コレクション全体にわたってグローバルに一貫した高品質な対応を実現できることを示した。
コードやその他の資料は \url{https://kampta.github.io/asic} で入手できる。
関連論文リスト
- CrIBo: Self-Supervised Learning via Cross-Image Object-Level
Bootstrapping [40.94237853380154]
本稿では,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ法を提案する。
CrIBoは、テスト時に最も近い隣人検索を利用して、コンテキスト内学習の特に強力で適切な候補として現れる。
論文 参考訳(メタデータ) (2023-10-11T19:57:51Z) - Exploring the Limits of Deep Image Clustering using Pretrained Models [1.1060425537315088]
本稿では,事前学習した特徴抽出器を利用してラベルなしで画像の分類を学習する手法を提案する。
本稿では,画像特徴間の関連性を学習する新たな目的について提案する。
論文 参考訳(メタデータ) (2023-03-31T08:56:29Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - COTR: Correspondence Transformer for Matching Across Images [31.995943755283786]
本稿では,深層ニューラルネットワークに基づく画像の対応関係を探索する新しい枠組みを提案する。
そうすることで、興味のある点のみをクエリし、スパース対応を取り出すか、画像中のすべての点をクエリし、密接なマッピングを得ることができる。
論文 参考訳(メタデータ) (2021-03-25T22:47:02Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。