論文の概要: A causal view of compositional zero-shot recognition
- arxiv url: http://arxiv.org/abs/2006.14610v2
- Date: Sun, 1 Nov 2020 17:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 04:16:23.484348
- Title: A causal view of compositional zero-shot recognition
- Title(参考訳): 構成的ゼロショット認識の因果的視点
- Authors: Yuval Atzmon, Felix Kreuk, Uri Shalit, Gal Chechik
- Abstract要約: 人々は既知のコンポーネントの新しい組み合わせである新しい視覚カテゴリーを容易に認識する。
この構成一般化能力は、視覚や言語といった現実世界の領域での学習に不可欠である。
ここでは、因果的考えに基づく構成的一般化のアプローチについて述べる。
- 参考スコア(独自算出の注目度): 42.63916938252048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People easily recognize new visual categories that are new combinations of
known components. This compositional generalization capacity is critical for
learning in real-world domains like vision and language because the long tail
of new combinations dominates the distribution. Unfortunately, learning systems
struggle with compositional generalization because they often build on features
that are correlated with class labels even if they are not "essential" for the
class. This leads to consistent misclassification of samples from a new
distribution, like new combinations of known components.
Here we describe an approach for compositional generalization that builds on
causal ideas. First, we describe compositional zero-shot learning from a causal
perspective, and propose to view zero-shot inference as finding "which
intervention caused the image?". Second, we present a causal-inspired embedding
model that learns disentangled representations of elementary components of
visual objects from correlated (confounded) training data. We evaluate this
approach on two datasets for predicting new combinations of attribute-object
pairs: A well-controlled synthesized images dataset and a real-world dataset
which consists of fine-grained types of shoes. We show improvements compared to
strong baselines.
- Abstract(参考訳): 人々は既知のコンポーネントの新しい組み合わせである新しい視覚カテゴリーを容易に認識する。
この構成一般化能力は、新しい組み合わせの長い尾が分布を支配しているため、視覚や言語のような現実世界の領域での学習に不可欠である。
残念なことに、学習システムは、たとえクラスが"必須"でなくても、クラスラベルに関連付けられた機能を構築することが多いため、構成の一般化に苦しむ。
これにより、既知のコンポーネントの新しい組み合わせのように、新しいディストリビューションからのサンプルの一貫した誤分類につながる。
本稿では,因果概念に基づく構成一般化のアプローチについて述べる。
まず、因果的観点からの合成ゼロショット学習について述べ、ゼロショット推論を「どの介入が画像の原因となったのか?
第2に、相関学習データから視覚オブジェクトの基本成分の不整合表現を学習する因果インスパイアされた埋め込みモデルを提案する。
本手法は,属性オブジェクトペアの新たな組み合わせを予測するための2つのデータセットに対して評価する。
強いベースラインに比べて改善が見られた。
関連論文リスト
- DXAI: Explaining Classification by Image Decomposition [4.013156524547072]
我々は、分解に基づく説明可能なAI(DXAI)を用いてニューラルネットワークの分類を可視化する新しい方法を提案する。
本手法は,説明熱マップを提供する代わりに,画像のクラス非依存部分とクラス固有部分への分解を行う。
論文 参考訳(メタデータ) (2023-12-30T20:52:20Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Independent Prototype Propagation for Zero-Shot Compositionality [1.2676356746752893]
本稿では,新しいプログレッシブグラフ法であるProtoPropを提案する。
まず、条件付き独立な対象の原型表現を学習する。
次に、合成グラフを通して独立プロトタイプを伝搬する。
一般化された合成ゼロショット設定では、最先端の結果よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-01T08:24:09Z) - Learning Graph Embeddings for Open World Compositional Zero-Shot
Learning [47.09665742252187]
コンポジションゼロショット学習(CZSL)は、トレーニング中に見られる状態とオブジェクトの視覚的プリミティブの見えない構成を認識することを目的としている。
Co-CGE(Compositional Cosine Graph Embeddings)を提案する。
Co-CGEは、グラフ畳み込みニューラルネットワークを介して状態、オブジェクトおよびそれらの組成間の依存性をモデル化する。
論文 参考訳(メタデータ) (2021-05-03T17:08:21Z) - Learning Graph Embeddings for Compositional Zero-shot Learning [73.80007492964951]
合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
論文 参考訳(メタデータ) (2021-02-03T10:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。