論文の概要: PVG: Progressive Vision Graph for Vision Recognition
- arxiv url: http://arxiv.org/abs/2308.00574v1
- Date: Tue, 1 Aug 2023 14:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:53:53.338600
- Title: PVG: Progressive Vision Graph for Vision Recognition
- Title(参考訳): PVG: 視覚認識のためのプログレッシブビジョングラフ
- Authors: Jiafu Wu, Jian Li, Jiangning Zhang, Boshen Zhang, Mingmin Chi, Yabiao
Wang, Chengjie Wang
- Abstract要約: 本稿では,視覚認識タスクのためのプログレッシブビジョングラフ(PVG)アーキテクチャを提案する。
PVGには3つの主要コンポーネントが含まれている: 1) プログレッシブ・セパレート・グラフ・コンストラクション(PSGC)、2) 隣ノードの情報収集と更新モジュール、3) グラフエラーリニア・ユニット(GraphLU)。
- 参考スコア(独自算出の注目度): 25.752613030302534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution-based and Transformer-based vision backbone networks process
images into the grid or sequence structures, respectively, which are inflexible
for capturing irregular objects. Though Vision GNN (ViG) adopts graph-level
features for complex images, it has some issues, such as inaccurate neighbor
node selection, expensive node information aggregation calculation, and
over-smoothing in the deep layers. To address the above problems, we propose a
Progressive Vision Graph (PVG) architecture for vision recognition task.
Compared with previous works, PVG contains three main components: 1)
Progressively Separated Graph Construction (PSGC) to introduce second-order
similarity by gradually increasing the channel of the global graph branch and
decreasing the channel of local branch as the layer deepens; 2) Neighbor nodes
information aggregation and update module by using Max pooling and mathematical
Expectation (MaxE) to aggregate rich neighbor information; 3) Graph error
Linear Unit (GraphLU) to enhance low-value information in a relaxed form to
reduce the compression of image detail information for alleviating the
over-smoothing. Extensive experiments on mainstream benchmarks demonstrate the
superiority of PVG over state-of-the-art methods, e.g., our PVG-S obtains 83.0%
Top-1 accuracy on ImageNet-1K that surpasses GNN-based ViG-S by +0.9 with the
parameters reduced by 18.5%, while the largest PVG-B obtains 84.2% that has
+0.5 improvement than ViG-B. Furthermore, our PVG-S obtains +1.3 box AP and
+0.4 mask AP gains than ViG-S on COCO dataset.
- Abstract(参考訳): 畳み込みベースのビジョンバックボーンネットワークとトランスフォーマーベースのビジョンバックボーンネットワークはそれぞれ、不規則なオブジェクトをキャプチャするための柔軟性のないグリッドやシーケンス構造に画像を処理します。
vision gnn (vig) は複雑な画像に対してグラフレベルの機能を採用しているが、隣接ノードの選択の不正確性、高価なノード情報集約計算、深層でのオーバースモーシングなど、いくつかの問題がある。
上記の課題に対処するために,視覚認識タスクのためのプログレッシブビジョングラフ(PVG)アーキテクチャを提案する。
PVGは以前の研究と比較すると、以下の3つの主要コンポーネントを含んでいる。
1)グローバルグラフブランチのチャネルを徐々に増やし,レイヤが深まるにつれて局所ブランチのチャネルを減少させることにより,第2次類似性を導入するための段階的分離グラフ構築(psgc)
2) Max pooling and mathematical expectation (MaxE) による近隣ノードの情報収集・更新モジュール
3)グラフエラーリニアユニット(GraphLU)により,低値情報を緩和形式で強化し,画像の詳細情報の圧縮を減らし,過度なスムーシングを緩和する。
例えば、当社のPVG-Sは、GNNベースのVG-Sを+0.9で上回り、パラメータが18.5%減少するImageNet-1Kで83.0%のTop-1精度を得る一方、最大のPVG-Bは84.2%でVG-Bよりも改善されている。
さらに、PVG-Sは、COCOデータセット上のViG-Sよりも+1.3ボックスAPと+0.4マスクAPのゲインを得る。
関連論文リスト
- No-Reference Point Cloud Quality Assessment via Graph Convolutional Network [89.12589881881082]
3次元(3D)ポイントクラウドは、新しいビジュアルメディアフォーマットとして、消費者にますます好まれている。
ポイントクラウドは、必然的に、マルチメディア通信システムによる品質劣化と情報損失に悩まされる。
マルチビュー2次元投影画像の相互依存関係を特徴付けるために,GCN(Graph Convolutional Network)を用いた新しい非参照PCQA手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T11:39:05Z) - GreedyViG: Dynamic Axial Graph Construction for Efficient Vision GNNs [5.895049552752008]
ビジョングラフニューラルネットワーク(ViG)は、コンピュータビジョンの探索のための新しい道を提供する。
ViGsの主なボトルネックは、グラフ構築に使用される非効率なk-アネレスト隣り(KNN)演算である。
KNNよりも効率的な動的軸グラフ構築(DAGC)を設計するための新しい手法を提案する。
また,DAGCを用いた新しいCNN-GNNアーキテクチャであるGreedyViGを提案する。
論文 参考訳(メタデータ) (2024-05-10T23:21:16Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Vision GNN: An Image is Worth Graph of Nodes [49.3335689216822]
本稿では,画像をグラフ構造として表現し,視覚タスクのためのグラフレベルの特徴を抽出するビジョンGNN(ViG)アーキテクチャを提案する。
画像のグラフ表現に基づいて、すべてのノード間で情報を変換、交換するViGモデルを構築します。
画像認識および物体検出タスクに関する大規模な実験は、我々のViGアーキテクチャの優位性を実証している。
論文 参考訳(メタデータ) (2022-06-01T07:01:04Z) - Exploiting Neighbor Effect: Conv-Agnostic GNNs Framework for Graphs with
Heterophily [58.76759997223951]
我々はフォン・ノイマンエントロピーに基づく新しい計量を提案し、GNNのヘテロフィリー問題を再検討する。
また、異種データセット上でのほとんどのGNNの性能を高めるために、Conv-Agnostic GNNフレームワーク(CAGNN)を提案する。
論文 参考訳(メタデータ) (2022-03-19T14:26:43Z) - SoGCN: Second-Order Graph Convolutional Networks [20.840026487716404]
多層二階グラフ畳み込み(SoGC)は任意の係数でスペクトルフィルタを表現するのに十分であることを示す。
We build our Second-Order Graph Convolutional Networks (SoGCN) with SoGC and design a synthetic dataset to verify its filter fitabilities。
論文 参考訳(メタデータ) (2021-10-14T03:56:34Z) - Semi-supervised Hyperspectral Image Classification with Graph Clustering
Convolutional Networks [41.78245271989529]
HSI分類のためのグラフ畳み込みネットワーク(GCN)に基づくフレームワークを提案する。
特に、類似のスペクトル特徴を持つ画素をスーパーピクセルにまずクラスターし、入力したhsiのスーパーピクセルに基づいてグラフを構築する。
その後、エッジを弱い重みで刻むことでいくつかの部分グラフに分割し、高い類似性を持つノードの相関性を強化する。
論文 参考訳(メタデータ) (2020-12-20T14:16:59Z) - GPS-Net: Graph Property Sensing Network for Scene Graph Generation [91.60326359082408]
シーングラフ生成(SGG)は、画像内のオブジェクトとそれらのペア関係を検出することを目的としている。
GPS-Netは、エッジ方向情報、ノード間の優先度の差、長期にわたる関係の分布という、SGGの3つの特性を網羅している。
GPS-Netは、VG、OI、VRDの3つの一般的なデータベース上での最先端のパフォーマンスを、さまざまな設定とメトリクスで大幅に向上させる。
論文 参考訳(メタデータ) (2020-03-29T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。