論文の概要: Concept Generalization in Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2012.05649v1
- Date: Thu, 10 Dec 2020 13:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:34:33.407219
- Title: Concept Generalization in Visual Representation Learning
- Title(参考訳): 視覚表現学習における概念一般化
- Authors: Mert Bulent Sariyildiz, Yannis Kalantidis, Diane Larlus, Karteek
Alahari
- Abstract要約: 目に見える概念と目に見えない概念のセマンティックな関係が一般化性能に影響を及ぼすと論じる。
概念一般化を原理的に測定できる,ImageNetデータセットの新たなベンチマークであるImageNet-CoGを提案する。
- 参考スコア(独自算出の注目度): 39.32868843527767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring concept generalization, i.e., the extent to which models trained on
a set of (seen) visual concepts can be used to recognize a new set of (unseen)
concepts, is a popular way of evaluating visual representations, especially
when they are learned with self-supervised learning. Nonetheless, the choice of
which unseen concepts to use is usually made arbitrarily, and independently
from the seen concepts used to train representations, thus ignoring any
semantic relationships between the two. In this paper, we argue that semantic
relationships between seen and unseen concepts affect generalization
performance and propose ImageNet-CoG, a novel benchmark on the ImageNet dataset
that enables measuring concept generalization in a principled way. Our
benchmark leverages expert knowledge that comes from WordNet in order to define
a sequence of unseen ImageNet concept sets that are semantically more and more
distant from the ImageNet-1K subset, a ubiquitous training set. This allows us
to benchmark visual representations learned on ImageNet-1K out-of-the box: we
analyse a number of such models from supervised, semi-supervised and
self-supervised approaches under the prism of concept generalization, and show
how our benchmark is able to uncover a number of interesting insights. We will
provide resources for the benchmark at
https://europe.naverlabs.com/cog-benchmark.
- Abstract(参考訳): 概念の一般化の測定、すなわち、(seen)視覚概念のセットでトレーニングされたモデルが、新しい(seen)概念のセットを認識するために使用できる範囲は、視覚表現を評価する一般的な方法であり、特に、自己教師付き学習で学習される場合である。
それでも、使われない概念の選択は、通常任意に行われ、表現を訓練するために使用される概念とは独立して行われ、したがって両者のセマンティックな関係は無視される。
本稿では,目に見える概念と目に見えない概念のセマンティックな関係が一般化性能に与える影響を論じ,概念の一般化を原則的に測定できるImageNetデータセットの新しいベンチマークであるImageNet-CoGを提案する。
我々のベンチマークでは、WordNetから得られた専門家の知識を活用して、ユビキタストレーニングセットであるImageNet-1Kサブセットから意味的に、より遠く離れたImageNet概念セットのシーケンスを定義する。
私たちは、概念一般化のプリズムの下で、教師付き、半教師付き、自己監督型のアプローチから、これらのモデルを分析し、我々のベンチマークが興味深い洞察をいかに明らかにできるかを示します。
ベンチマークのリソースはhttps://europe.naverlabs.com/cog-benchmark.comで提供します。
関連論文リスト
- Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - CEIR: Concept-based Explainable Image Representation Learning [0.4198865250277024]
本稿では,概念に基づく説明可能な画像表現(CEIR)を導入し,ラベルに依存しない高品質な表現を導出する。
提案手法は, CIFAR10, CIFAR100, STL10などのベンチマーク上で, 最先端の非教師付きクラスタリング性能を示す。
CEIRは、微調整なしで、オープンワールドイメージから関連概念をシームレスに抽出することができる。
論文 参考訳(メタデータ) (2023-12-17T15:37:41Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Does Visual Pretraining Help End-to-End Reasoning? [81.4707017038019]
汎用ニューラルネットワークを用いて視覚的推論のエンドツーエンド学習を実現することができるかを検討する。
本稿では,ビデオフレームを小さなトークン集合に"圧縮"する,シンプルで汎用的な自己教師型フレームワークを提案する。
終末の視覚的推論のための構成的一般化を実現するためには,事前学習が不可欠である。
論文 参考訳(メタデータ) (2023-07-17T14:08:38Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - SegDiscover: Visual Concept Discovery via Unsupervised Semantic
Segmentation [29.809900593362844]
SegDiscoverは、監視なしで複雑なシーンを持つデータセットから意味論的に意味のある視覚概念を発見する新しいフレームワークである。
提案手法は, 生画像から概念プリミティブを生成し, 自己教師付き事前学習エンコーダの潜在空間をクラスタリングし, ニューラルネットワークのスムーズ化により概念の洗練を図る。
論文 参考訳(メタデータ) (2022-04-22T20:44:42Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。