論文の概要: Multiscale Superpixel Structured Difference Graph Convolutional Network
for VL Representation
- arxiv url: http://arxiv.org/abs/2310.13447v2
- Date: Wed, 25 Oct 2023 13:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 19:09:17.508791
- Title: Multiscale Superpixel Structured Difference Graph Convolutional Network
for VL Representation
- Title(参考訳): VL表現のためのマルチスケール超画素構造差グラフ畳み込みネットワーク
- Authors: Siyu Zhang, Yeming Chen, Sirui Cheng, Yaoru Sun, Jun Yang, Lizhi Bai
- Abstract要約: 本稿では,学習可能な画像データの包括的コンパクト表現としてスーパーピクセルを開発する。
より正確なトポロジ的関係を抽出するために,マルチスケール差分グラフ畳み込みネットワーク(MDGCN)を提案する。
提案手法は,複数の下流タスク学習に適用可能である。
- 参考スコア(独自算出の注目度): 7.454659707039389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Within the multimodal field, the key to integrating vision and language lies
in establishing a good alignment strategy. Recently, benefiting from the
success of self-supervised learning, significant progress has been made in
multimodal semantic representation based on pre-trained models for vision and
language. However, there is still room for improvement in visual semantic
representation. The lack of spatial semantic coherence and vulnerability to
noise makes it challenging for current pixel or patch-based methods to
accurately extract complex scene boundaries. To this end, this paper develops
superpixel as a comprehensive compact representation of learnable image data,
which effectively reduces the number of visual primitives for subsequent
processing by clustering perceptually similar pixels. To mine more precise
topological relations, we propose a Multiscale Difference Graph Convolutional
Network (MDGCN). It parses the entire image as a fine-to-coarse hierarchical
structure of constituent visual patterns, and captures multiscale features by
progressively merging adjacent superpixels as graph nodes. Moreover, we predict
the differences between adjacent nodes through the graph structure,
facilitating key information aggregation of graph nodes to reason actual
semantic relations. Afterward, we design a multi-level fusion rule in a
bottom-up manner to avoid understanding deviation by learning complementary
spatial information at different regional scales. Our proposed method can be
well applied to multiple downstream task learning. Extensive experiments
demonstrate that our method is competitive with other state-of-the-art methods
in visual reasoning. Our code will be released upon publication.
- Abstract(参考訳): マルチモーダル分野において、ビジョンと言語を統合する鍵は、優れたアライメント戦略を確立することである。
近年,自己指導型学習の成功の恩恵を受け,視覚と言語に対する事前学習モデルに基づく多モーダルな意味表現が顕著に進歩している。
しかし、視覚的意味表現の改善の余地はまだ残っている。
空間的セマンティックコヒーレンスとノイズに対する脆弱性の欠如により、現在のピクセルやパッチベースの方法で複雑なシーン境界を正確に抽出することは困難である。
そこで本研究では,学習可能な画像データの包括的コンパクト表現としてスーパーピクセルを開発し,知覚的に類似した画素をクラスタリングすることで,その後の処理における視覚的プリミティブの数を効果的に削減する。
より正確なトポロジ的関係を明らかにするために,MDGCN (Multiscale Different Graph Convolutional Network) を提案する。
画像全体を、構成する視覚パターンの微調整された階層構造として解析し、隣接するスーパーピクセルをグラフノードとして段階的に結合することで、マルチスケールな特徴をキャプチャする。
さらに,グラフ構造を通して隣接ノード間の差異を予測し,グラフノードのキー情報収集を容易にし,実際の意味関係を推論する。
その後、異なる地域規模で相補的な空間情報を学習することで偏差の理解を避けるため、ボトムアップ方式でマルチレベル融合ルールを設計する。
提案手法は,複数の下流タスク学習に適用可能である。
広汎な実験により,本手法は視覚的推論における他の最先端手法と競合することを示した。
私たちのコードは出版時に公開される。
関連論文リスト
- Patch-wise Graph Contrastive Learning for Image Translation [69.85040887753729]
グラフニューラルネットワークを利用して、トポロジを意識した特徴をキャプチャする。
予め訓練されたエンコーダからパッチワイドな類似性に基づいてグラフを構築する。
階層的な意味構造を捉えるために,グラフプーリングを提案する。
論文 参考訳(メタデータ) (2023-12-13T15:45:19Z) - Masked Contrastive Graph Representation Learning for Age Estimation [44.96502862249276]
本稿では,画像冗長性情報を扱う上で,グラフ表現学習の特性を利用する。
年齢推定のためのMasked Contrastive Graph Representation Learning (MCGRL)法を提案する。
実世界の顔画像データセットに対する実験結果から,提案手法が他の最先端の年齢推定手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-16T15:53:21Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Pixel Relationships-based Regularizer for Retinal Vessel Image
Segmentation [4.3251090426112695]
本研究は, 正則化器を用いて, 学習プロセスに画素近傍の関係情報を付与する。
実験により,提案手法は画素近傍関係の捕捉に成功し,畳み込みニューラルネットワークの性能向上を図っている。
論文 参考訳(メタデータ) (2022-12-28T07:35:20Z) - Unsupervised Image Semantic Segmentation through Superpixels and Graph
Neural Networks [6.123324869194195]
ラベル付きデータが不足している多くの実世界のシナリオでは、教師なしのイメージセグメンテーションが重要なタスクである。
本稿では,相互情報最大化(MIM),ニューラルスーパーピクセル,グラフニューラルネットワーク(GNN)をエンドツーエンドに組み合わせて,教師なし学習の最近の進歩を活用する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-21T08:35:18Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。