論文の概要: KE-RCNN: Unifying Knowledge based Reasoning into Part-level Attribute
Parsing
- arxiv url: http://arxiv.org/abs/2206.10146v1
- Date: Tue, 21 Jun 2022 07:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 16:53:19.505984
- Title: KE-RCNN: Unifying Knowledge based Reasoning into Part-level Attribute
Parsing
- Title(参考訳): KE-RCNN:知識に基づく推論をパートレベルの属性解析に統一する
- Authors: Xuanhan Wang, Jingkuan Song, Xiaojia Chen, Lechao Cheng, Lianli Gao,
Heng Tao Shen
- Abstract要約: 部分レベルの解析は基本的だが難しい作業であり、説明可能な身体部分の詳細を提供するには領域レベルの視覚的理解が必要である。
既存のほとんどのアプローチでは、属性予測ヘッドを備えた地域畳み込みニューラルネットワーク(RCNN)を2段階検出器に追加することでこの問題に対処している。
暗黙の知識を含む豊富な知識を活用することで属性を識別するための知識埋め込みRCNN(KE-RCNN)を提案する。
- 参考スコア(独自算出の注目度): 115.55331747000844
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Part-level attribute parsing is a fundamental but challenging task, which
requires the region-level visual understanding to provide explainable details
of body parts. Most existing approaches address this problem by adding a
regional convolutional neural network (RCNN) with an attribute prediction head
to a two-stage detector, in which attributes of body parts are identified from
local-wise part boxes. However, local-wise part boxes with limit visual clues
(i.e., part appearance only) lead to unsatisfying parsing results, since
attributes of body parts are highly dependent on comprehensive relations among
them. In this article, we propose a Knowledge Embedded RCNN (KE-RCNN) to
identify attributes by leveraging rich knowledges, including implicit knowledge
(e.g., the attribute ``above-the-hip'' for a shirt requires visual/geometry
relations of shirt-hip) and explicit knowledge (e.g., the part of ``shorts''
cannot have the attribute of ``hoodie'' or ``lining''). Specifically, the
KE-RCNN consists of two novel components, i.e., Implicit Knowledge based
Encoder (IK-En) and Explicit Knowledge based Decoder (EK-De). The former is
designed to enhance part-level representation by encoding part-part relational
contexts into part boxes, and the latter one is proposed to decode attributes
with a guidance of prior knowledge about \textit{part-attribute} relations. In
this way, the KE-RCNN is plug-and-play, which can be integrated into any
two-stage detectors, e.g., Attribute-RCNN, Cascade-RCNN, HRNet based RCNN and
SwinTransformer based RCNN. Extensive experiments conducted on two challenging
benchmarks, e.g., Fashionpedia and Kinetics-TPS, demonstrate the effectiveness
and generalizability of the KE-RCNN. In particular, it achieves higher
improvements over all existing methods, reaching around 3% of AP on
Fashionpedia and around 4% of Acc on Kinetics-TPS.
- Abstract(参考訳): 部分レベルの属性解析は基本的だが難しい作業であり、説明可能な身体部分の詳細を提供するには領域レベルの視覚的理解が必要である。
既存のほとんどのアプローチでは、属性予測ヘッドを持つ地域畳み込みニューラルネットワーク(RCNN)を2段階検出器に追加することでこの問題に対処している。
しかし、身体部位の属性はそれらの包括的関係に大きく依存するため、局所的な視覚的な手がかり(すなわち外観のみ)を持つ部分ボックスは、解析結果に満足できない結果をもたらす。
本稿では,暗黙の知識(例えば,シャツの'above-the-hip'という属性は,シャツヒップの視覚的/幾何学的関係)や明示的な知識(例えば,'shorts'の一部が'hoodie'や'lining'の属性を持つことができない)を含む,豊富な知識を活用することで属性を識別する知識埋め込みRCNNを提案する。
具体的には、KE-RCNNは、IK-En(Implicit Knowledge Based Encoder)とEK-De(Explicit Knowledge Based Decoder)の2つの新しいコンポーネントで構成されている。
前者は部分関係コンテキストを部分ボックスにエンコードすることで部分レベル表現を強化するように設計されており、後者は \textit{part-attribute} 関係に関する事前知識のガイダンスを用いて属性をデコードする。
このようにして、KE-RCNNはプラグ・アンド・プレイであり、Attribute-RCNN、Cascade-RCNN、HRNetベースのRCNN、SwinTransformerベースのRCNNなどの2段階検出器に統合することができる。
FashionpediaとKinetics-TPSの2つの挑戦的なベンチマークで実施された大規模な実験は、KE-RCNNの有効性と一般化性を実証している。
特に、既存のすべての方法よりも高い改善を達成し、 fashionpediaのapの約3%、kinetics-tpsのaccの約4%に達する。
関連論文リスト
- Exploring Learned Representations of Neural Networks with Principal
Component Analysis [1.0923877073891446]
ある層では、高い精度の分類には中間的特徴空間分散の20%しか必要としない。
本研究は神経崩壊と相関し, 中間神経崩壊の関連現象の部分的証拠を提供する。
論文 参考訳(メタデータ) (2023-09-27T00:18:25Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Collaborative Graph Neural Networks for Attributed Network Embedding [63.39495932900291]
グラフニューラルネットワーク(GNN)は、属性付きネットワーク埋め込みにおいて顕著な性能を示している。
本稿では,ネットワーク埋め込みに適したGNNアーキテクチャであるCulaborative graph Neural Networks-CONNを提案する。
論文 参考訳(メタデータ) (2023-07-22T04:52:27Z) - Knowledge Enhanced Neural Networks for relational domains [83.9217787335878]
我々は、ニューラルネットワークに事前論理的知識を注入するニューラルネットワークアーキテクチャであるKENNに焦点を当てる。
本稿では,関係データに対するKENNの拡張を提案する。
論文 参考訳(メタデータ) (2022-05-31T13:00:34Z) - Informed Machine Learning for Improved Similarity Assessment in
Process-Oriented Case-Based Reasoning [1.370633147306388]
グラフニューラルネットワーク(GNN)にドメイン知識を統合する可能性について検討する。
まず、各グラフノードとエッジのセマンティックアノテーションに関する構造知識を符号化する特殊なデータ表現処理手法を用いる。
第2に、GNNのメッセージパッシングコンポーネントは、法的なノードマッピングに関する知識によって制約される。
論文 参考訳(メタデータ) (2021-06-30T09:31:58Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z) - Neural Networks Enhancement with Logical Knowledge [83.9217787335878]
関係データに対するKENNの拡張を提案する。
その結果、KENNは、存在関係データにおいても、基礎となるニューラルネットワークの性能を高めることができることがわかった。
論文 参考訳(メタデータ) (2020-09-13T21:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。