論文の概要: Towards Open-World Co-Salient Object Detection with Generative
Uncertainty-aware Group Selective Exchange-Masking
- arxiv url: http://arxiv.org/abs/2310.10264v1
- Date: Mon, 16 Oct 2023 10:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:07:11.683336
- Title: Towards Open-World Co-Salient Object Detection with Generative
Uncertainty-aware Group Selective Exchange-Masking
- Title(参考訳): 生成的不確実性認識グループ選択的交換マスキングを用いたオープンワールド協調物体検出に向けて
- Authors: Yang Wu, Shenglong Hu, Huihui Song, Kaihua Zhang, Bo Liu, Dong Liu
- Abstract要約: 我々は,CoSODモデルのロバスト性を高めるため,グループ選択的交換マスキング(GSEM)アプローチを導入する。
GSEMは、新しい学習戦略を用いて、各グループから画像のサブセットを選択し、選択した画像を交換する。
そこで我々は,非関連画像による不確実性と,グループ内の残りの関連画像のコンセンサス特性を同時に考慮するために,潜時可変ジェネレータブランチとCoSODトランスフォーマーブランチを設計した。
- 参考スコア(独自算出の注目度): 23.60044777118441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The traditional definition of co-salient object detection (CoSOD) task is to
segment the common salient objects in a group of relevant images. This
definition is based on an assumption of group consensus consistency that is not
always reasonable in the open-world setting, which results in robustness issue
in the model when dealing with irrelevant images in the inputting image group
under the open-word scenarios. To tackle this problem, we introduce a group
selective exchange-masking (GSEM) approach for enhancing the robustness of the
CoSOD model. GSEM takes two groups of images as input, each containing
different types of salient objects. Based on the mixed metric we designed, GSEM
selects a subset of images from each group using a novel learning-based
strategy, then the selected images are exchanged. To simultaneously consider
the uncertainty introduced by irrelevant images and the consensus features of
the remaining relevant images in the group, we designed a latent variable
generator branch and CoSOD transformer branch. The former is composed of a
vector quantised-variational autoencoder to generate stochastic global
variables that model uncertainty. The latter is designed to capture
correlation-based local features that include group consensus. Finally, the
outputs of the two branches are merged and passed to a transformer-based
decoder to generate robust predictions. Taking into account that there are
currently no benchmark datasets specifically designed for open-world scenarios,
we constructed three open-world benchmark datasets, namely OWCoSal, OWCoSOD,
and OWCoCA, based on existing datasets. By breaking the group-consistency
assumption, these datasets provide effective simulations of real-world
scenarios and can better evaluate the robustness and practicality of models.
- Abstract(参考訳): cosod(co-salient object detection)タスクの伝統的な定義は、共通のサルエントオブジェクトを関連画像のグループに分割することである。
この定義は、オープンワールド設定において必ずしも妥当ではないグループコンセンサス一貫性の仮定に基づいており、これはオープンワードシナリオの下で画像群を入力する際に、無関係な画像を扱う場合のモデルにおけるロバスト性の問題をもたらす。
この問題に対処するために,CoSODモデルのロバスト性を高めるためのグループ選択的交換マスキング(GSEM)手法を提案する。
GSEMは2つの画像群を入力として取り、それぞれ異なる種類の有能なオブジェクトを含む。
GSEMは、設計した混合メトリクスに基づいて、新しい学習戦略を用いて各グループから画像のサブセットを選択し、選択した画像を交換する。
非関連画像による不確かさとグループ内の残存関連画像のコンセンサス特性を同時に考慮し,潜在変数発生器ブランチとcosod変換器ブランチを設計した。
前者は、不確実性をモデル化する確率的大域変数を生成するベクトル量子化変分オートエンコーダからなる。
後者は、グループコンセンサスを含む相関に基づく局所的な特徴をキャプチャするように設計されている。
最後に、2つの分岐の出力をマージしてトランスベースのデコーダに渡してロバストな予測を生成する。
現在、オープンワールドシナリオ用に特別に設計されたベンチマークデータセットはないため、既存のデータセットに基づいてOWCoSal、OWCoSOD、OWCoCAという3つのオープンワールドベンチマークデータセットを構築しました。
グループ一貫性の仮定を破ることで、これらのデータセットは実世界のシナリオの効果的なシミュレーションを提供し、モデルの堅牢性と実用性を評価することができる。
関連論文リスト
- Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Co-Salient Object Detection with Semantic-Level Consensus Extraction and
Dispersion [27.120768849942145]
共塩物検出は、各画像の一般的な塩物を明らかにすることを目的としている。
意味レベルのコンセンサスを抽出する階層型トランスフォーマーモジュールを提案する。
Transformerベースの分散モジュールは、異なるシーンにおける共存オブジェクトの変動を考慮している。
論文 参考訳(メタデータ) (2023-09-14T14:39:07Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo
Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。
内在的な類似性のため、背景から隠された物体を区別することは困難である。
これら2つの課題に対処する新しいWSCOS手法を提案する。
論文 参考訳(メタデータ) (2023-05-18T14:31:34Z) - Learning Semi-supervised Gaussian Mixture Models for Generalized
Category Discovery [36.01459228175808]
本稿では,表現学習とクラス数推定を交互に行うEMライクなフレームワークを提案する。
汎用画像分類データセットと細粒度オブジェクト認識データセットの双方について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-05-10T13:47:38Z) - CLUSTSEG: Clustering for Universal Segmentation [56.58677563046506]
CLUSTSEGは画像セグメンテーションのための一般的なトランスフォーマーベースのフレームワークである。
これは、統合されたニューラルクラスタリングスキームを通じて、異なるイメージセグメンテーションタスク(スーパーピクセル、セマンティック、インスタンス、パノプティクス)に取り組む。
論文 参考訳(メタデータ) (2023-05-03T15:31:16Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。