論文の概要: Relation-aware Compositional Zero-shot Learning for Attribute-Object
Pair Recognition
- arxiv url: http://arxiv.org/abs/2108.04603v1
- Date: Tue, 10 Aug 2021 11:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:14:53.113342
- Title: Relation-aware Compositional Zero-shot Learning for Attribute-Object
Pair Recognition
- Title(参考訳): 属性オブジェクトペア認識のための関係認識型ゼロショット学習
- Authors: Ziwei Xu, Guangzhi Wang, Yongkang Wong, Mohan Kankanhalli
- Abstract要約: 本稿では,複合属性オブジェクトの概念を用いた画像認識モデルを提案する。
属性オブジェクトペアを構成するプリミティブな概念に対して,リッチで堅牢な特徴を学習するために必要な3つの重要な特性について検討する。
モデルが合成概念に偏りを生じないようにし,属性とオブジェクト間の絡み合いを低減するため,ブロック機構を提案する。
- 参考スコア(独自算出の注目度): 17.464548471883948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel model for recognizing images with composite
attribute-object concepts, notably for composite concepts that are unseen
during model training. We aim to explore the three key properties required by
the task --- relation-aware, consistent, and decoupled --- to learn rich and
robust features for primitive concepts that compose attribute-object pairs. To
this end, we propose the Blocked Message Passing Network (BMP-Net). The model
consists of two modules. The concept module generates semantically meaningful
features for primitive concepts, whereas the visual module extracts visual
features for attributes and objects from input images. A message passing
mechanism is used in the concept module to capture the relations between
primitive concepts. Furthermore, to prevent the model from being biased towards
seen composite concepts and reduce the entanglement between attributes and
objects, we propose a blocking mechanism that equalizes the information
available to the model for both seen and unseen concepts. Extensive experiments
and ablation studies on two benchmarks show the efficacy of the proposed model.
- Abstract(参考訳): 本稿では,複合属性オブジェクト概念を用いた画像認識のための新しいモデルを提案する。
私たちは、属性とオブジェクトのペアを構成するプリミティブ概念のリッチでロバストな機能を学ぶために、タスクが必要とする3つの重要な特性 -- 関係認識、一貫性、分離 -- を探求することを目指しています。
そこで我々は,Blocked Message Passing Network (BMP-Net)を提案する。
モデルは2つのモジュールで構成される。
コンセプトモジュールはプリミティブ概念に対して意味的に意味のある特徴を生成し、ビジュアルモジュールは入力画像から属性やオブジェクトの視覚的特徴を抽出する。
メッセージパッシングメカニズムは、プリミティブな概念間の関係をキャプチャするためにコンセプトモジュールで使用される。
さらに, モデルが合成概念に偏りを生じないようにし, 属性とオブジェクト間の絡み合いを低減するため, 可視概念と無視概念の両方においてモデルに利用可能な情報を等しくするブロッキング機構を提案する。
2つのベンチマークの大規模な実験とアブレーション研究により,提案モデルの有効性が示された。
関連論文リスト
- Neural Concept Binder [22.074896812195437]
本稿では、離散概念表現と連続概念表現の両方を導出するフレームワークであるNeural Concept Binder (NCB)を紹介する。
NCBの概念表現の構造的性質は、直感的な検査と外部知識の直接的な統合を可能にする。
新たに導入したCLEVR-Sudokuデータセットを用いて,NCBの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-14T11:52:09Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Interpretable Visual Reasoning via Induced Symbolic Space [75.95241948390472]
視覚的推論における概念誘導の問題,すなわち,画像に関連付けられた質問応答対から概念とその階層的関係を同定する。
我々はまず,オブジェクトレベルの視覚的特徴を持つ視覚的推論タスクを実行するために,オブジェクト指向合成注意モデル(OCCAM)という新しいフレームワークを設計する。
そこで我々は,対象の視覚的特徴と質問語の間の注意パターンから手がかりを用いて,対象と関係の概念を誘導する手法を考案した。
論文 参考訳(メタデータ) (2020-11-23T18:21:49Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。