論文の概要: Learning Graph Embeddings for Compositional Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2102.01987v1
- Date: Wed, 3 Feb 2021 10:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:26:51.835806
- Title: Learning Graph Embeddings for Compositional Zero-shot Learning
- Title(参考訳): 構成ゼロショット学習のための学習グラフ埋め込み
- Authors: Muhammad Ferjad Naeem, Yongqin Xian, Federico Tombari, Zeynep Akata
- Abstract要約: 合成ゼロショット学習では、観察された視覚的原始状態の見えない構成を認識することが目的である。
本稿では,画像特徴と視覚的プリミティブの潜在表現をエンドツーエンドに学習するCGEという新しいグラフ定式化を提案する。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
- 参考スコア(独自算出の注目度): 73.80007492964951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In compositional zero-shot learning, the goal is to recognize unseen
compositions (e.g. old dog) of observed visual primitives states (e.g. old,
cute) and objects (e.g. car, dog) in the training set. This is challenging
because the same state can for example alter the visual appearance of a dog
drastically differently from a car. As a solution, we propose a novel graph
formulation called Compositional Graph Embedding (CGE) that learns image
features, compositional classifiers, and latent representations of visual
primitives in an end-to-end manner. The key to our approach is exploiting the
dependency between states, objects, and their compositions within a graph
structure to enforce the relevant knowledge transfer from seen to unseen
compositions. By learning a joint compatibility that encodes semantics between
concepts, our model allows for generalization to unseen compositions without
relying on an external knowledge base like WordNet. We show that in the
challenging generalized compositional zero-shot setting our CGE significantly
outperforms the state of the art on MIT-States and UT-Zappos. We also propose a
new benchmark for this task based on the recent GQA dataset.
- Abstract(参考訳): 作曲ゼロショット学習の目標は、目に見えない構成(例えば)を認識することである。
老犬) 観察された視覚原始状態(例)
古くてかわいい)とオブジェクト(例えば、)
車、犬) トレーニングセットで。
これは、例えば同じ状態が犬の視覚的外観を車と劇的に異なる変更することができるため、挑戦的です。
解法として,画像特徴,構成分類器,視覚的プリミティブの潜在表現をエンドツーエンドで学習する,コンポジショングラフ埋め込み(Compositional Graph Embedding, CGE)と呼ばれる新しいグラフ定式化を提案する。
私たちのアプローチの鍵は、状態、オブジェクト、およびグラフ構造内のそれらの構成間の依存関係を利用して、関連する知識転送を目に見えない構成に強制することです。
概念間のセマンティクスを符号化する共同互換性を学習することにより、WordNetのような外部知識ベースに頼ることなく、構成を見えないように一般化することができる。
難易度の高い構成ゼロショット設定において,我々のcgeはmit-states と ut-zappos の最先端技術を大きく上回っている。
また、最近のGQAデータセットに基づいて、このタスクの新しいベンチマークを提案する。
関連論文リスト
- Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Learning Attention Propagation for Compositional Zero-Shot Learning [71.55375561183523]
コンポジションアテンション・プロパゲード・エンベディング(CAPE)と呼ばれる新しい手法を提案する。
CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。
提案手法は,3つの公開ベンチマークに対して,新しい最先端のベンチマークを設定するために,従来のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T19:44:11Z) - On Leveraging Variational Graph Embeddings for Open World Compositional
Zero-Shot Learning [3.9348884623092517]
我々は、原始概念、すなわち対象と状態の合成を、その新しい構成でさえゼロショット分類できる方法で学習する。
基本概念の変分埋め込みを学習するための構成変分グラフオートエンコーダ(CVGAE)アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-23T13:30:08Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - Learning Graph Embeddings for Open World Compositional Zero-Shot
Learning [47.09665742252187]
コンポジションゼロショット学習(CZSL)は、トレーニング中に見られる状態とオブジェクトの視覚的プリミティブの見えない構成を認識することを目的としている。
Co-CGE(Compositional Cosine Graph Embeddings)を提案する。
Co-CGEは、グラフ畳み込みニューラルネットワークを介して状態、オブジェクトおよびそれらの組成間の依存性をモデル化する。
論文 参考訳(メタデータ) (2021-05-03T17:08:21Z) - Generative Compositional Augmentations for Scene Graph Prediction [27.535630110794855]
シーングラフの形で画像からオブジェクトとその関係を推定することは、視覚と言語を交わす多くのアプリケーションで有用である。
本稿では,この課題において,長い尾データ分布から生じる合成一般化の課題について考察する。
本研究では,条件付き生成逆数ネットワーク(GAN)に基づくモデルの提案と実証研究を行い,乱れたシーングラフの視覚的特徴を生成する。
論文 参考訳(メタデータ) (2020-07-11T12:11:53Z) - A causal view of compositional zero-shot recognition [42.63916938252048]
人々は既知のコンポーネントの新しい組み合わせである新しい視覚カテゴリーを容易に認識する。
この構成一般化能力は、視覚や言語といった現実世界の領域での学習に不可欠である。
ここでは、因果的考えに基づく構成的一般化のアプローチについて述べる。
論文 参考訳(メタデータ) (2020-06-25T17:51:22Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。