論文の概要: Zero-Shot Co-salient Object Detection Framework
- arxiv url: http://arxiv.org/abs/2309.05499v3
- Date: Fri, 12 Jan 2024 01:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-16 00:04:37.620350
- Title: Zero-Shot Co-salient Object Detection Framework
- Title(参考訳): Zero-Shot Co-Salient Object Detection Framework
- Authors: Haoke Xiao and Lv Tang and Bo Li and Zhiming Luo and Shaozi Li
- Abstract要約: トレーニングプロセスなしでこれらのモデルを利用する最初のゼロショットCoSODフレームワークを紹介します。
広く使われているデータセット上でのフレームワークの性能を評価し、印象的な結果を観察する。
- 参考スコア(独自算出の注目度): 30.427903909974646
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Co-salient Object Detection (CoSOD) endeavors to replicate the human visual
system's capacity to recognize common and salient objects within a collection
of images. Despite recent advancements in deep learning models, these models
still rely on training with well-annotated CoSOD datasets. The exploration of
training-free zero-shot CoSOD frameworks has been limited. In this paper,
taking inspiration from the zero-shot transfer capabilities of foundational
computer vision models, we introduce the first zero-shot CoSOD framework that
harnesses these models without any training process. To achieve this, we
introduce two novel components in our proposed framework: the group prompt
generation (GPG) module and the co-saliency map generation (CMP) module. We
evaluate the framework's performance on widely-used datasets and observe
impressive results. Our approach surpasses existing unsupervised methods and
even outperforms fully supervised methods developed before 2020, while
remaining competitive with some fully supervised methods developed before 2022.
- Abstract(参考訳): Co-salient Object Detection (CoSOD)は、人間の視覚システムの能力を再現して、画像のコレクション内の共通かつ健全なオブジェクトを認識する。
近年のディープラーニングモデルの発展にもかかわらず、これらのモデルはよく注釈付きCoSODデータセットによるトレーニングに依存している。
トレーニングフリーのゼロショットCoSODフレームワークの探索は制限されている。
本稿では,基礎となるコンピュータビジョンモデルのゼロショット転送機能からインスピレーションを得て,これらのモデルを利用した最初のゼロショットCoSODフレームワークを提案する。
これを実現するため,提案フレームワークではグループプロンプト生成(gpg)モジュールと協調マップ生成(cmp)モジュールという2つの新しいコンポーネントを導入する。
広く使われているデータセット上でのフレームワークの性能を評価し、印象的な結果を観察する。
提案手法は,既存の非教師付き手法を上回り,2020年以前に開発された完全監督型手法を上回ってさえも2022年以前に開発された完全監督型手法との競争力を維持している。
関連論文リスト
- pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Revisiting Weakly Supervised Pre-Training of Visual Perception Models [27.95816470075203]
大規模で弱い教師付き事前訓練は、完全に教師付きアプローチよりも優れている。
本稿では,ハッシュタグによるモデル事前学習の弱さを再考する。
本研究は,視覚認識システム開発における弱教師付き学習の活用について,説得力のある議論を提起する。
論文 参考訳(メタデータ) (2022-01-20T18:55:06Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。