論文の概要: Neural Congealing: Aligning Images to a Joint Semantic Atlas
- arxiv url: http://arxiv.org/abs/2302.03956v1
- Date: Wed, 8 Feb 2023 09:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:45:58.310448
- Title: Neural Congealing: Aligning Images to a Joint Semantic Atlas
- Title(参考訳): neural congealing: イメージをジョイントセマンティックアトラスにアライメントする
- Authors: Dolev Ofri-Amar, Michal Geyer, Yoni Kasten, Tali Dekel
- Abstract要約: 画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
- 参考スコア(独自算出の注目度): 14.348512536556413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Neural Congealing -- a zero-shot self-supervised framework for
detecting and jointly aligning semantically-common content across a given set
of images. Our approach harnesses the power of pre-trained DINO-ViT features to
learn: (i) a joint semantic atlas -- a 2D grid that captures the mode of
DINO-ViT features in the input set, and (ii) dense mappings from the unified
atlas to each of the input images. We derive a new robust self-supervised
framework that optimizes the atlas representation and mappings per image set,
requiring only a few real-world images as input without any additional input
information (e.g., segmentation masks). Notably, we design our losses and
training paradigm to account only for the shared content under severe
variations in appearance, pose, background clutter or other distracting
objects. We demonstrate results on a plethora of challenging image sets
including sets of mixed domains (e.g., aligning images depicting sculpture and
artwork of cats), sets depicting related yet different object categories (e.g.,
dogs and tigers), or domains for which large-scale training data is scarce
(e.g., coffee mugs). We thoroughly evaluate our method and show that our
test-time optimization approach performs favorably compared to a
state-of-the-art method that requires extensive training on large-scale
datasets.
- Abstract(参考訳): ニューラル・コンガリング(Neural Congealing) - 与えられた画像集合にまたがるセマンティックなコンテントを検出し、協調的に調整するための、ゼロショットのセルフ教師付きフレームワーク。
我々のアプローチは、事前訓練されたDINO-ViT機能を利用して学習する。
(i)ジョイント・セマンティクス・アトラス(joint semantic atlas) -- 入力セット内のdino-vit特徴のモードをキャプチャする2dグリッド。
(ii)統一アトラスから各入力画像への密接なマッピング。
我々は、画像セットごとにatlas表現とマッピングを最適化する新しいロバストな自己教師付きフレームワークを導出し、追加の入力情報(例えば、セグメンテーションマスク)なしで、ほんの数枚の実世界の画像を入力として要求する。
特に、外見、ポーズ、背景の散らばり、その他の注意をそそる物体において、共有コンテンツのみを考慮に入れた損失とトレーニングパラダイムを設計する。
例えば、猫の彫刻やアートワークを描いた画像など)、関連があるが異なる対象のカテゴリ(例えば、犬やトラ)を描いたセット、大規模なトレーニングデータが少ない領域(例えば、コーヒーマグカップ)など、多くの挑戦的な画像セットで結果を示す。
本手法を徹底的に評価し,大規模データセットの広範なトレーニングを必要とする最先端手法と比較して,テスト時間最適化手法が良好に動作することを示す。
関連論文リスト
- Co-Segmentation without any Pixel-level Supervision with Application to Large-Scale Sketch Classification [3.3104978705632777]
画像の集合における共通物体の画素レベルの局所化という,オブジェクトの分離のための新しい手法を提案する。
この方法は、同じレベルの監督で訓練された方法のうち、最先端のパフォーマンスを達成する。
大規模スケッチ認識の課題において,提案手法の利点をさらに示す。
論文 参考訳(メタデータ) (2024-10-17T14:16:45Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。