論文の概要: Zero-Shot Co-salient Object Detection Framework
- arxiv url: http://arxiv.org/abs/2309.05499v3
- Date: Fri, 12 Jan 2024 01:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-16 00:04:37.620350
- Title: Zero-Shot Co-salient Object Detection Framework
- Title(参考訳): Zero-Shot Co-Salient Object Detection Framework
- Authors: Haoke Xiao and Lv Tang and Bo Li and Zhiming Luo and Shaozi Li
- Abstract要約: トレーニングプロセスなしでこれらのモデルを利用する最初のゼロショットCoSODフレームワークを紹介します。
広く使われているデータセット上でのフレームワークの性能を評価し、印象的な結果を観察する。
- 参考スコア(独自算出の注目度): 30.427903909974646
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Co-salient Object Detection (CoSOD) endeavors to replicate the human visual
system's capacity to recognize common and salient objects within a collection
of images. Despite recent advancements in deep learning models, these models
still rely on training with well-annotated CoSOD datasets. The exploration of
training-free zero-shot CoSOD frameworks has been limited. In this paper,
taking inspiration from the zero-shot transfer capabilities of foundational
computer vision models, we introduce the first zero-shot CoSOD framework that
harnesses these models without any training process. To achieve this, we
introduce two novel components in our proposed framework: the group prompt
generation (GPG) module and the co-saliency map generation (CMP) module. We
evaluate the framework's performance on widely-used datasets and observe
impressive results. Our approach surpasses existing unsupervised methods and
even outperforms fully supervised methods developed before 2020, while
remaining competitive with some fully supervised methods developed before 2022.
- Abstract(参考訳): Co-salient Object Detection (CoSOD)は、人間の視覚システムの能力を再現して、画像のコレクション内の共通かつ健全なオブジェクトを認識する。
近年のディープラーニングモデルの発展にもかかわらず、これらのモデルはよく注釈付きCoSODデータセットによるトレーニングに依存している。
トレーニングフリーのゼロショットCoSODフレームワークの探索は制限されている。
本稿では,基礎となるコンピュータビジョンモデルのゼロショット転送機能からインスピレーションを得て,これらのモデルを利用した最初のゼロショットCoSODフレームワークを提案する。
これを実現するため,提案フレームワークではグループプロンプト生成(gpg)モジュールと協調マップ生成(cmp)モジュールという2つの新しいコンポーネントを導入する。
広く使われているデータセット上でのフレームワークの性能を評価し、印象的な結果を観察する。
提案手法は,既存の非教師付き手法を上回り,2020年以前に開発された完全監督型手法を上回ってさえも2022年以前に開発された完全監督型手法との競争力を維持している。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Revisiting Weakly Supervised Pre-Training of Visual Perception Models [27.95816470075203]
大規模で弱い教師付き事前訓練は、完全に教師付きアプローチよりも優れている。
本稿では,ハッシュタグによるモデル事前学習の弱さを再考する。
本研究は,視覚認識システム開発における弱教師付き学習の活用について,説得力のある議論を提起する。
論文 参考訳(メタデータ) (2022-01-20T18:55:06Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。