論文の概要: HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation
- arxiv url: http://arxiv.org/abs/2008.05156v1
- Date: Wed, 12 Aug 2020 07:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:22:11.567991
- Title: HOSE-Net: Higher Order Structure Embedded Network for Scene Graph
Generation
- Title(参考訳): HOSE-Net:シーングラフ生成のための高次構造埋め込みネットワーク
- Authors: Meng Wei, Chun Yuan, Xiaoyu Yue, Kuo Zhong
- Abstract要約: 本稿では,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
また,高次構造情報を導入して部分空間の数を減らし,階層的セマンティックアグリゲーション(HSA)モジュールを提案する。
提案したHOSE-Netは、Visual GenomeとVRDの2つの人気のあるベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 20.148175528691905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene graph generation aims to produce structured representations for images,
which requires to understand the relations between objects. Due to the
continuous nature of deep neural networks, the prediction of scene graphs is
divided into object detection and relation classification. However, the
independent relation classes cannot separate the visual features well. Although
some methods organize the visual features into graph structures and use message
passing to learn contextual information, they still suffer from drastic
intra-class variations and unbalanced data distributions. One important factor
is that they learn an unstructured output space that ignores the inherent
structures of scene graphs. Accordingly, in this paper, we propose a Higher
Order Structure Embedded Network (HOSE-Net) to mitigate this issue. First, we
propose a novel structure-aware embedding-to-classifier(SEC) module to
incorporate both local and global structural information of relationships into
the output space. Specifically, a set of context embeddings are learned via
local graph based message passing and then mapped to a global structure based
classification space. Second, since learning too many context-specific
classification subspaces can suffer from data sparsity issues, we propose a
hierarchical semantic aggregation(HSA) module to reduces the number of
subspaces by introducing higher order structural information. HSA is also a
fast and flexible tool to automatically search a semantic object hierarchy
based on relational knowledge graphs. Extensive experiments show that the
proposed HOSE-Net achieves the state-of-the-art performance on two popular
benchmarks of Visual Genome and VRD.
- Abstract(参考訳): シーングラフ生成は、オブジェクト間の関係を理解する必要がある画像の構造化表現を作成することを目的としている。
深層ニューラルネットワークの連続的な性質から,シーングラフの予測はオブジェクト検出と関係分類に分けられる。
しかし、独立した関係クラスは視覚的特徴をうまく分離できない。
視覚的な特徴をグラフ構造に整理し、メッセージパッシングを使って文脈情報を学ぶ方法もあるが、それでもクラス内変異や不均衡なデータ分布に苦しむ。
重要な要因の1つは、シーングラフの固有の構造を無視する非構造化出力空間を学ぶことである。
そこで本稿では,この問題を軽減するために,高次構造埋め込みネットワーク(HOSE-Net)を提案する。
まず,関係の局所的および大域的構造情報を出力空間に組み込むための新しい構造認識型組込み分類器(SEC)モジュールを提案する。
具体的には、コンテキスト埋め込みのセットをローカルグラフベースのメッセージパッシングを通じて学習し、グローバルな構造ベースの分類空間にマップする。
第2に、コンテキスト固有の分類サブスペースが多すぎるとデータ空間の問題が発生するため、高次構造情報を導入してサブスペースの数を減少させる階層的意味集約(HSA)モジュールを提案する。
HSAはまた、関係知識グラフに基づいて意味オブジェクト階層を自動的に検索する高速で柔軟なツールである。
広範な実験により,提案するホースネットは,視覚ゲノムとvrdの2つのベンチマークにおいて最先端のパフォーマンスを達成していることが示された。
関連論文リスト
- Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - Individual and Structural Graph Information Bottlenecks for
Out-of-Distribution Generalization [21.227825123510293]
I-GIB(Personal Graph Information Bottleneck)とS-GIB(Structure Graph Information Bottleneck)を提案する。
I-GIBは、入力グラフとその埋め込み間の相互情報を最小化することにより、無関係な情報を破棄する。
S-GIBは同時に急激な特徴を捨て、高次の視点から不変な特徴を学ぶ。
論文 参考訳(メタデータ) (2023-06-28T03:52:41Z) - Task-specific Scene Structure Representations [13.775485887433815]
本研究では,シーンのタスク固有の構造ガイダンスを抽出する単一汎用ニューラルネットワークアーキテクチャを提案する。
我々の主な貢献は、このような単純なネットワークが、いくつかの低レベル視覚アプリケーションに対して最先端の結果を得ることができることを示すことである。
論文 参考訳(メタデータ) (2023-01-02T08:25:47Z) - Structure-Preserving Graph Representation Learning [43.43429108503634]
本研究では,グラフの構造情報を完全にキャプチャする構造保存グラフ表現学習(SPGRL)手法を提案する。
具体的には、元のグラフの不確かさと誤情報を減らすために、k-Nearest Neighbor法による補完的なビューとして特徴グラフを構築する。
本手法は、半教師付きノード分類タスクにおいて非常に優れた性能を示し、グラフ構造やノード特徴に対するノイズ摂動下での堅牢性に優れる。
論文 参考訳(メタデータ) (2022-09-02T02:49:19Z) - BSAL: A Framework of Bi-component Structure and Attribute Learning for
Link Prediction [33.488229191263564]
トポロジや特徴空間からの情報を適応的に活用する二成分構造・属性学習フレームワーク(BSAL)を提案する。
BSALはノード属性を介してセマンティックトポロジを構築し、セマンティックビューに関する埋め込みを取得する。
ノード属性が持つ情報を適応的に組み込む、フレキシブルで実装が容易なソリューションを提供する。
論文 参考訳(メタデータ) (2022-04-18T03:12:13Z) - Deep Hierarchical Semantic Segmentation [76.40565872257709]
階層的セマンティックセマンティックセグメンテーション(HSS)は、クラス階層の観点で視覚的観察を構造化、ピクセル単位で記述することを目的としている。
HSSNは、HSSを画素単位のマルチラベル分類タスクとしてキャストし、現在のセグメンテーションモデルに最小限のアーキテクチャ変更をもたらすだけである。
階層構造によって引き起こされるマージンの制約により、HSSNはピクセル埋め込み空間を再評価し、よく構造化されたピクセル表現を生成する。
論文 参考訳(メタデータ) (2022-03-27T15:47:44Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Graph Information Bottleneck [77.21967740646784]
グラフニューラルネットワーク(GNN)は、ネットワーク構造とノード機能から情報を融合する表現的な方法を提供する。
GIBは、一般的なInformation Bottleneck (IB) を継承し、与えられたタスクに対する最小限の表現を学習することを目的としている。
提案したモデルが最先端のグラフ防御モデルよりも堅牢であることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:13:00Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。