論文の概要: GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition
- arxiv url: http://arxiv.org/abs/2308.14378v3
- Date: Fri, 19 Jul 2024 02:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:35:58.360663
- Title: GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition
- Title(参考訳): GKGNet:マルチラベル画像認識のためのグループK-Nearest Neighborに基づくグラフ畳み込みネットワーク
- Authors: Ruijie Yao, Sheng Jin, Lumin Xu, Wang Zeng, Wentao Liu, Chen Qian, Ping Luo, Ji Wu,
- Abstract要約: マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
- 参考スコア(独自算出の注目度): 37.02054260449195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Label Image Recognition (MLIR) is a challenging task that aims to predict multiple object labels in a single image while modeling the complex relationships between labels and image regions. Although convolutional neural networks and vision transformers have succeeded in processing images as regular grids of pixels or patches, these representations are sub-optimal for capturing irregular and discontinuous regions of interest. In this work, we present the first fully graph convolutional model, Group K-nearest neighbor based Graph convolutional Network (GKGNet), which models the connections between semantic label embeddings and image patches in a flexible and unified graph structure. To address the scale variance of different objects and to capture information from multiple perspectives, we propose the Group KGCN module for dynamic graph construction and message passing. Our experiments demonstrate that GKGNet achieves state-of-the-art performance with significantly lower computational costs on the challenging multi-label datasets, i.e., MS-COCO and VOC2007 datasets. Codes are available at https://github.com/jin-s13/GKGNet.
- Abstract(参考訳): マルチラベル画像認識(MLIR)は、ラベルと画像領域の間の複雑な関係をモデル化しながら、単一のイメージ内で複数のオブジェクトラベルを予測することを目的とした課題である。
畳み込みニューラルネットワークと視覚変換器は、ピクセルやパッチの正規グリッドとして画像を処理することに成功しているが、これらの表現は不規則で不連続な領域をキャプチャするのに最適である。
本稿では,グループK-アネレス近傍のグラフ畳み込みネットワーク (GKGNet) を初めて提案し, セマンティックラベルの埋め込みと画像パッチの接続を柔軟で統一されたグラフ構造でモデル化する。
異なるオブジェクトのスケール分散に対処し、複数の視点から情報を取得するために、動的グラフ構築とメッセージパッシングのためのグループKGCNモジュールを提案する。
実験により,GKGNetは,MS-COCOデータセットやVOC2007データセットといった挑戦的なマルチラベルデータセットに対して,計算コストを大幅に削減して,最先端の性能を実現することを示した。
コードはhttps://github.com/jin-s13/GKGNetで入手できる。
関連論文リスト
- SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介した。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - Two Stream Scene Understanding on Graph Embedding [4.78180589767256]
本稿では,コンピュータビジョンにおけるシーン理解の促進を目的とした,新しい2ストリームネットワークアーキテクチャを提案する。
グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。
ADE20Kデータセットで行った実験は、画像分類精度を向上させるために提案した2ストリームネットワークの有効性を示した。
論文 参考訳(メタデータ) (2023-11-12T05:57:56Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Learning Hierarchical Graph Representation for Image Manipulation
Detection [50.04902159383709]
画像操作検出の目的は、画像内の操作された領域を特定し、特定することである。
最近のアプローチでは、画像に残っている改ざんするアーティファクトをキャプチャするために、洗練された畳み込みニューラルネットワーク(CNN)が採用されている。
本稿では2つの並列分岐からなる階層型グラフ畳み込みネットワーク(HGCN-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:25Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - GM-MLIC: Graph Matching based Multi-Label Image Classification [20.118173194957052]
マルチラベル画像分類(MLIC)は、画像に存在するラベルの集合を予測することを目的としている。
本稿では、各イメージをインスタンスの袋として扱い、MLICのタスクをインスタンスラベルマッチング選択問題として再構成する。
Graph Matching Based Multi-Label Image Classification (GM-MLIC) という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T05:36:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Attention-Driven Dynamic Graph Convolutional Network for Multi-Label
Image Recognition [53.17837649440601]
本稿では,各画像の特定のグラフを動的に生成するアテンション駆動型動的グラフ畳み込みネットワーク(ADD-GCN)を提案する。
パブリックなマルチラベルベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-05T10:10:12Z) - Sequential Graph Convolutional Network for Active Learning [53.99104862192055]
逐次グラフ畳み込みネットワーク(GCN)を用いた新しいプールベースアクティブラーニングフレームワークを提案する。
少数のランダムなサンプル画像がシードラベル付き例であるので、グラフのパラメータを学習してラベル付きノードと非ラベル付きノードを区別する。
我々はGCNの特性を利用してラベル付けされたものと十分に異なる未ラベルの例を選択する。
論文 参考訳(メタデータ) (2020-06-18T00:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。