論文の概要: SAMCLR: Contrastive pre-training on complex scenes using SAM for view
sampling
- arxiv url: http://arxiv.org/abs/2310.14736v1
- Date: Mon, 23 Oct 2023 09:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 21:07:05.381704
- Title: SAMCLR: Contrastive pre-training on complex scenes using SAM for view
sampling
- Title(参考訳): SAMCLR:ビューサンプリングにSAMを用いた複雑なシーンでのコントラスト事前トレーニング
- Authors: Benjamin Missaoui, Chongbin Yuan
- Abstract要約: コンピュータビジョンにおいて、自己監督的コントラスト学習は、同じ画像の異なるビュー間で同様の表現を強制する。
そこで本研究では,イメージをセマンティック領域に分割し,同じ領域から2つのビューをサンプリングするSimCLRのアドオンであるSAMCLRを提案する。
予備的な結果は、CityscapesとADE20Kで事前トレーニングを行った後、CIFAR-10、STL10、ImageNetteの分類に基づいてSAMCLRが少なくとも同等で、最も顕著に性能が向上していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Computer Vision, self-supervised contrastive learning enforces similar
representations between different views of the same image. The pre-training is
most often performed on image classification datasets, like ImageNet, where
images mainly contain a single class of objects. However, when dealing with
complex scenes with multiple items, it becomes very unlikely for several views
of the same image to represent the same object category. In this setting, we
propose SAMCLR, an add-on to SimCLR which uses SAM to segment the image into
semantic regions, then sample the two views from the same region. Preliminary
results show empirically that when pre-training on Cityscapes and ADE20K, then
evaluating on classification on CIFAR-10, STL10 and ImageNette, SAMCLR performs
at least on par with, and most often significantly outperforms not only SimCLR,
but also DINO and MoCo.
- Abstract(参考訳): コンピュータビジョンにおいて、自己監督的コントラスト学習は、同じ画像の異なるビュー間で同様の表現を強制する。
事前トレーニングはイメージNetのようなイメージ分類データセット上で実施されることが多い。
しかし、複雑なシーンと複数のアイテムを扱う場合、同じイメージの複数のビューが同じオブジェクトカテゴリを表すことは、非常にありそうにない。
そこで本研究では,イメージをセマンティック領域に分割し,同じ領域から2つのビューをサンプリングするSimCLRのアドオンであるSAMCLRを提案する。
Cityscapes と ADE20K で事前トレーニングを行った後、CIFAR-10, STL10, ImageNette の分類に基づいてSAMCLR が少なくとも同等に動作し、SimCLR だけでなく、DINO や MoCo も性能的に優れていることが実証された。
関連論文リスト
- CycleSAM: One-Shot Surgical Scene Segmentation using Cycle-Consistent Feature Matching to Prompt SAM [2.9500242602590565]
CycleSAMは、テスト時にトレーニングイメージマスクペアを使用してワンショットの手術シーンセグメンテーションを行うアプローチである。
手術画像に事前訓練されたResNet50エンコーダを自己教師方式で採用し,高いラベル効率を維持する。
論文 参考訳(メタデータ) (2024-07-09T12:08:07Z) - Segment Anything without Supervision [65.93211374889196]
高速かつ自動的な全画像分割のためのUnsupervised SAM(UnSAM)を提案する。
UnSAMは、視覚シーンの階層構造を「発見」するために、分割・コンカ戦略を利用する。
教師付きSAMは自己教師付きラベルの恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:47:32Z) - SSR: SAM is a Strong Regularizer for domain adaptive semantic
segmentation [26.725467745421266]
本稿では,SAM(segment-anything)をトレーニング中に強力な正則化器として利用するSSRを紹介する。
我々のSSRは、追加の推論オーバーヘッドを導入することなく、ベースライン上での性能を著しく改善しました。
論文 参考訳(メタデータ) (2024-01-26T07:16:33Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Scene-Aware Feature Matching [13.014369025829598]
本稿では,Scene-Aware機能マッチングのガイドに注目グループ化を適用したSAMという新しいモデルを提案する。
センスアウェアなグループ化ガイダンスでは、SAMは従来の特徴マッチングモデルよりも正確で堅牢であり、解釈性も高い。
論文 参考訳(メタデータ) (2023-08-19T08:56:35Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Segment anything, from space? [8.126645790463266]
SAM(Segment Anything Model)は、安価な入力プロンプトに基づいて、入力画像中のオブジェクトをセグメント化することができる。
SAMは通常、目標タスクで訓練された視覚モデルに似た、あるいは時として超えた認識精度を達成した。
SAMの性能が画像のオーバーヘッド問題にまで及んでいるかどうかを考察し、その開発に対するコミュニティの反応を導くのに役立てる。
論文 参考訳(メタデータ) (2023-04-25T17:14:36Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Self-Supervised Ranking for Representation Learning [108.38993212650577]
本稿では、画像検索コンテキストにおけるランキング問題として定式化することで、自己教師型表現学習のための新しいフレームワークを提案する。
我々は、画像のランダムなビューが正に関連していると考えられるランク付けのための平均精度(AP)を最大化し、表現エンコーダを訓練する。
原則として、ランク付け基準を使用することで、対象中心のキュレートされたデータセットへの依存を排除します。
論文 参考訳(メタデータ) (2020-10-14T17:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。