論文の概要: Two Stream Scene Understanding on Graph Embedding
- arxiv url: http://arxiv.org/abs/2311.06746v1
- Date: Sun, 12 Nov 2023 05:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:04:57.367931
- Title: Two Stream Scene Understanding on Graph Embedding
- Title(参考訳): グラフ埋め込みに関する2つのストリームシーン理解
- Authors: Wenkai Yang, Wenyuan Sun, Runxaing Huang
- Abstract要約: 本稿では,コンピュータビジョンにおけるシーン理解の促進を目的とした,新しい2ストリームネットワークアーキテクチャを提案する。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
ADE20Kデータセットで行った実験は、画像分類精度を向上させるために提案した2ストリームネットワークの有効性を示した。
- 参考スコア(独自算出の注目度): 4.78180589767256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper presents a novel two-stream network architecture for enhancing
scene understanding in computer vision. This architecture utilizes a graph
feature stream and an image feature stream, aiming to merge the strengths of
both modalities for improved performance in image classification and scene
graph generation tasks. The graph feature stream network comprises a
segmentation structure, scene graph generation, and a graph representation
module. The segmentation structure employs the UPSNet architecture with a
backbone that can be a residual network, Vit, or Swin Transformer. The scene
graph generation component focuses on extracting object labels and neighborhood
relationships from the semantic map to create a scene graph. Graph
Convolutional Networks (GCN), GraphSAGE, and Graph Attention Networks (GAT) are
employed for graph representation, with an emphasis on capturing node features
and their interconnections. The image feature stream network, on the other
hand, focuses on image classification through the use of Vision Transformer and
Swin Transformer models. The two streams are fused using various data fusion
methods. This fusion is designed to leverage the complementary strengths of
graph-based and image-based features.Experiments conducted on the ADE20K
dataset demonstrate the effectiveness of the proposed two-stream network in
improving image classification accuracy compared to conventional methods. This
research provides a significant contribution to the field of computer vision,
particularly in the areas of scene understanding and image classification, by
effectively combining graph-based and image-based approaches.
- Abstract(参考訳): 本稿では,コンピュータビジョンにおけるシーン理解を強化するための2ストリームネットワークアーキテクチャを提案する。
このアーキテクチャは、グラフ特徴ストリームと画像特徴ストリームを利用し、画像分類とシーングラフ生成タスクのパフォーマンスを改善するために両方のモダリティの強みを融合することを目的としている。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
セグメンテーション構造は、残差ネットワーク、vit、swinトランスフォーマであるバックボーンを備えたupsnetアーキテクチャを採用している。
シーングラフ生成コンポーネントは、セマンティックマップからオブジェクトラベルと近隣関係を抽出してシーングラフを作成することに焦点を当てる。
Graph Convolutional Networks (GCN)、GraphSAGE、Graph Attention Networks (GAT)はグラフ表現に使われ、ノードの特徴と相互接続のキャプチャに重点を置いている。
一方、画像特徴ストリームネットワークは、視覚トランスフォーマーとスウィントランスモデルを用いて画像分類に焦点を当てている。
2つのストリームは様々なデータ融合方式で融合される。
この融合は, ade20kデータセット上で行った実験により, 従来の手法と比較して画像分類精度を向上させるための2ストリームネットワークの有効性を実証するものである。
この研究は、特にシーン理解と画像分類の分野で、グラフベースのアプローチと画像ベースのアプローチを効果的に組み合わせることで、コンピュータビジョンの分野に重要な貢献をする。
関連論文リスト
- Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。
年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。
実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-16T15:53:21Z) - Graph Transformer GANs for Graph-Constrained House Generation [223.739067413952]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
GTGANは、グラフ制約のある住宅生成タスクにおいて、エンドツーエンドで効率的なグラフノード関係を学習する。
論文 参考訳(メタデータ) (2023-03-14T20:35:45Z) - Symbolic image detection using scene and knowledge graphs [39.49756199669471]
画像のグラフ表現であるシーングラフを用いて、視覚的コンポーネントをキャプチャする。
本研究では,ConceptNetから抽出した事実を用いて,オブジェクトや属性を推論する知識グラフを生成する。
我々はさらにネットワークを拡張して、グラフの表現の重要性を学習するアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2022-06-10T04:06:28Z) - Spectral Graph Convolutional Networks With Lifting-based Adaptive Graph
Wavelets [81.63035727821145]
スペクトルグラフ畳み込みネットワーク(SGCN)はグラフ表現学習において注目を集めている。
本稿では,適応グラフウェーブレットを用いたグラフ畳み込みを実装した新しいスペクトルグラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T17:57:53Z) - Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。
複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文 参考訳(メタデータ) (2021-07-20T22:09:21Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Bridging Knowledge Graphs to Generate Scene Graphs [49.69377653925448]
本稿では,2つのグラフ間の情報伝達を反復的に行う新しいグラフベースニューラルネットワークを提案する。
我々のグラフブリッジネットワークであるGB-Netは、エッジとノードを連続的に推論し、相互接続されたシーンとコモンセンスグラフのリッチでヘテロジニアスな構造を同時に活用し、洗練する。
論文 参考訳(メタデータ) (2020-01-07T23:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。