論文の概要: CrIBo: Self-Supervised Learning via Cross-Image Object-Level
Bootstrapping
- arxiv url: http://arxiv.org/abs/2310.07855v2
- Date: Sun, 3 Mar 2024 09:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 02:08:20.042893
- Title: CrIBo: Self-Supervised Learning via Cross-Image Object-Level
Bootstrapping
- Title(参考訳): CrIBo: クロスイメージなオブジェクトレベルブートストラップによる自己監督型学習
- Authors: Tim Lebailly, Thomas Stegm\"uller, Behzad Bozorgtabar, Jean-Philippe
Thiran, Tinne Tuytelaars
- Abstract要約: 本稿では,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ法を提案する。
CrIBoは、テスト時に最も近い隣人検索を利用して、コンテキスト内学習の特に強力で適切な候補として現れる。
- 参考スコア(独自算出の注目度): 40.94237853380154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging nearest neighbor retrieval for self-supervised representation
learning has proven beneficial with object-centric images. However, this
approach faces limitations when applied to scene-centric datasets, where
multiple objects within an image are only implicitly captured in the global
representation. Such global bootstrapping can lead to undesirable entanglement
of object representations. Furthermore, even object-centric datasets stand to
benefit from a finer-grained bootstrapping approach. In response to these
challenges, we introduce a novel Cross-Image Object-Level Bootstrapping method
tailored to enhance dense visual representation learning. By employing
object-level nearest neighbor bootstrapping throughout the training, CrIBo
emerges as a notably strong and adequate candidate for in-context learning,
leveraging nearest neighbor retrieval at test time. CrIBo shows
state-of-the-art performance on the latter task while being highly competitive
in more standard downstream segmentation tasks. Our code and pretrained models
are publicly available at https://github.com/tileb1/CrIBo.
- Abstract(参考訳): 自己教師付き表現学習における近接探索の活用は、対象中心の画像に対して有益であることが証明されている。
しかし、このアプローチはシーン中心のデータセットに適用した場合の制限に直面し、画像内の複数のオブジェクトは、グローバル表現の中で暗黙的にのみキャプチャされる。
このようなグローバルなブートストラッピングは、オブジェクト表現の望ましくない絡み合いにつながる可能性がある。
さらに、オブジェクト中心のデータセットでさえ、よりきめ細かいブートストラップアプローチの恩恵を受けている。
これらの課題に対応するために,高密度な視覚表現学習を実現するために,クロスイメージオブジェクトレベルブートストラップ方式を提案する。
CrIBoは、トレーニングを通じてオブジェクトレベルに近い隣人のブートストラップを採用することで、テスト時に最も近い隣人の検索を活用することで、コンテキスト内学習の特に強力で適切な候補として現れる。
CrIBoは、より標準的な下流セグメンテーションタスクにおいて高い競争力を持ちながら、後者のタスクで最先端のパフォーマンスを示す。
私たちのコードと事前訓練されたモデルはhttps://github.com/tileb1/CrIBo.comで公開されています。
関連論文リスト
- Co-Segmentation without any Pixel-level Supervision with Application to Large-Scale Sketch Classification [3.3104978705632777]
画像の集合における共通物体の画素レベルの局所化という,オブジェクトの分離のための新しい手法を提案する。
この方法は、同じレベルの監督で訓練された方法のうち、最先端のパフォーマンスを達成する。
大規模スケッチ認識の課題において,提案手法の利点をさらに示す。
論文 参考訳(メタデータ) (2024-10-17T14:16:45Z) - PEEKABOO: Hiding parts of an image for unsupervised object localization [7.161489957025654]
教師なしの方法でオブジェクトをローカライズすることは、重要な視覚情報がないために大きな課題となる。
教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。
キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。
論文 参考訳(メタデータ) (2024-07-24T20:35:20Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning [28.368429312400885]
シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。
提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T07:07:29Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Unsupervised Image Classification for Deep Representation Learning [42.09716669386924]
埋め込みクラスタリングを使わずに、教師なしのイメージ分類フレームワークを提案する。
提案手法の有効性を証明するために,ImageNetデータセットの実験を行った。
論文 参考訳(メタデータ) (2020-06-20T02:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。