論文の概要: GeneCIS: A Benchmark for General Conditional Image Similarity
- arxiv url: http://arxiv.org/abs/2306.07969v1
- Date: Tue, 13 Jun 2023 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:15:36.233127
- Title: GeneCIS: A Benchmark for General Conditional Image Similarity
- Title(参考訳): GeneCIS: 一般的な条件画像類似性のベンチマーク
- Authors: Sagar Vaze, Nicolas Carion, Ishan Misra
- Abstract要約: 我々は「相似性」には多くの概念があり、人間のようにモデルがこれらのモデルに動的に適応できるべきだと論じている。
我々は、モデルが様々な類似性条件に適応する能力を測定するGeneCISベンチマークを提案する。
- 参考スコア(独自算出の注目度): 21.96493413291777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We argue that there are many notions of 'similarity' and that models, like
humans, should be able to adapt to these dynamically. This contrasts with most
representation learning methods, supervised or self-supervised, which learn a
fixed embedding function and hence implicitly assume a single notion of
similarity. For instance, models trained on ImageNet are biased towards object
categories, while a user might prefer the model to focus on colors, textures or
specific elements in the scene. In this paper, we propose the GeneCIS
('genesis') benchmark, which measures models' ability to adapt to a range of
similarity conditions. Extending prior work, our benchmark is designed for
zero-shot evaluation only, and hence considers an open-set of similarity
conditions. We find that baselines from powerful CLIP models struggle on
GeneCIS and that performance on the benchmark is only weakly correlated with
ImageNet accuracy, suggesting that simply scaling existing methods is not
fruitful. We further propose a simple, scalable solution based on automatically
mining information from existing image-caption datasets. We find our method
offers a substantial boost over the baselines on GeneCIS, and further improves
zero-shot performance on related image retrieval benchmarks. In fact, though
evaluated zero-shot, our model surpasses state-of-the-art supervised models on
MIT-States. Project page at https://sgvaze.github.io/genecis/.
- Abstract(参考訳): 我々は「類似性」には多くの概念があり、人間のようなモデルはこれらのモデルに動的に適応できるべきだと主張する。
これは、固定埋め込み関数を学習し、従って暗黙的に類似性の単一の概念を仮定するほとんどの表現学習手法とは対照的である。
例えば、ImageNetでトレーニングされたモデルはオブジェクトカテゴリに偏り、ユーザは、シーン内の色やテクスチャ、特定の要素にフォーカスするモデルを好むかもしれません。
本稿では、モデルが様々な類似性条件に適応する能力を測定するGeneCIS(Genesis)ベンチマークを提案する。
先行研究を拡張したベンチマークでは,ゼロショット評価のみを想定し,類似性条件のオープンセットを検討する。
我々は、強力なCLIPモデルのベースラインがGeneCISで苦労していることと、ベンチマークのパフォーマンスがImageNetの精度と弱い相関しかないことを発見した。
さらに,既存の画像キャプチャーデータセットから情報を自動的にマイニングする,シンプルでスケーラブルなソリューションを提案する。
提案手法はGeneCISのベースラインを大幅に向上させ,関連する画像検索ベンチマークのゼロショット性能をさらに向上させる。
実際、評価されたゼロショットにもかかわらず、我々のモデルはMIT-Statesの最先端の教師付きモデルを上回る。
プロジェクトページ: https://sgvaze.github.io/genecis/
関連論文リスト
- GIM: Learning Generalizable Image Matcher From Internet Videos [18.974842517202365]
我々は,任意の画像マッチングアーキテクチャに基づいて,単一の一般化可能なモデルを学習するための自己学習フレームワークであるGIMを提案する。
また、画像マッチングのための最初のゼロショット評価ベンチマークであるZEBを提案する。
論文 参考訳(メタデータ) (2024-02-16T21:48:17Z) - Image Similarity using An Ensemble of Context-Sensitive Models [2.9490616593440317]
ラベル付きデータに基づく画像類似性モデルの構築と比較に,より直感的なアプローチを提案する。
画像空間(R,A,B)におけるスパースサンプリングの課題と,文脈に基づくデータを用いたモデルにおけるバイアスに対処する。
実験の結果,構築したアンサンブルモデルは,最高の文脈依存モデルよりも5%高い性能を示した。
論文 参考訳(メタデータ) (2024-01-15T20:23:05Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z) - CoNe: Contrast Your Neighbours for Supervised Image Classification [62.12074282211957]
Contrast Your Neighbours (CoNe)は、教師付き画像分類のための学習フレームワークである。
CoNeは、より適応的で洗練されたターゲットを生成するために、類似した隣人の特徴をアンカーとして採用している。
私たちのCoNeは、最近のTimトレーニングレシピを上回るResNet-50で、ImageNetの80.8%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2023-08-21T14:49:37Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Identical Image Retrieval using Deep Learning [0.0]
私たちは最先端のモデルであるBigTransfer Modelを使用しています。
我々は、K-Nearest Neighborモデルで重要な特徴を抽出し、最も近い隣人を得るために訓練する。
本モデルの応用は,低推論時間でテキストクエリによって実現し難い,類似した画像を見つけることである。
論文 参考訳(メタデータ) (2022-05-10T13:34:41Z) - Rethinking Semantic Segmentation: A Prototype View [126.59244185849838]
学習不可能なプロトタイプをベースとした非パラメトリックセマンティックセマンティックセマンティクスモデルを提案する。
我々のフレームワークは、いくつかのデータセットに対して魅力的な結果をもたらす。
この作業が、現在のデファクトセマンティックセグメンテーションモデル設計を再考することを期待しています。
論文 参考訳(メタデータ) (2022-03-28T21:15:32Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Conterfactual Generative Zero-Shot Semantic Segmentation [17.727625440123802]
一般的なゼロショットセマンティックセグメンテーション手法の1つは、生成モデルに基づいている。
本研究では,オリジナルのモデルにおいて,共同創設者を避けるための反事実的手法を検討する。
我々のモデルは、2つの実世界のデータセットのベースラインモデルと比較される。
論文 参考訳(メタデータ) (2021-06-11T13:01:03Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Diverse Image Generation via Self-Conditioned GANs [56.91974064348137]
手動でアノテートされたクラスラベルを使わずに、クラス条件付きGANモデルを訓練する。
代わりに、我々のモデルは、識別器の特徴空間におけるクラスタリングから自動的に派生したラベルに条件付きである。
我々のクラスタリングステップは、自動的に多様なモードを発見し、それらをカバーするためにジェネレータを明示的に必要とします。
論文 参考訳(メタデータ) (2020-06-18T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。