Fugu-MT 論文翻訳(概要): Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation

論文の概要: Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation

arxiv url: http://arxiv.org/abs/2310.13447v2
Date: Wed, 25 Oct 2023 13:14:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 19:09:17.508791
Title: Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation
Title（参考訳）: VL表現のためのマルチスケール超画素構造差グラフ畳み込みネットワーク
Authors: Siyu Zhang, Yeming Chen, Sirui Cheng, Yaoru Sun, Jun Yang, Lizhi Bai
Abstract要約: 本稿では,学習可能な画像データの包括的コンパクト表現としてスーパーピクセルを開発する。より正確なトポロジ的関係を抽出するために,マルチスケール差分グラフ畳み込みネットワーク(MDGCN)を提案する。提案手法は,複数の下流タスク学習に適用可能である。
参考スコア（独自算出の注目度）: 7.454659707039389
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Within the multimodal field, the key to integrating vision and language lies in establishing a good alignment strategy. Recently, benefiting from the success of self-supervised learning, significant progress has been made in multimodal semantic representation based on pre-trained models for vision and language. However, there is still room for improvement in visual semantic representation. The lack of spatial semantic coherence and vulnerability to noise makes it challenging for current pixel or patch-based methods to accurately extract complex scene boundaries. To this end, this paper develops superpixel as a comprehensive compact representation of learnable image data, which effectively reduces the number of visual primitives for subsequent processing by clustering perceptually similar pixels. To mine more precise topological relations, we propose a Multiscale Difference Graph Convolutional Network (MDGCN). It parses the entire image as a fine-to-coarse hierarchical structure of constituent visual patterns, and captures multiscale features by progressively merging adjacent superpixels as graph nodes. Moreover, we predict the differences between adjacent nodes through the graph structure, facilitating key information aggregation of graph nodes to reason actual semantic relations. Afterward, we design a multi-level fusion rule in a bottom-up manner to avoid understanding deviation by learning complementary spatial information at different regional scales. Our proposed method can be well applied to multiple downstream task learning. Extensive experiments demonstrate that our method is competitive with other state-of-the-art methods in visual reasoning. Our code will be released upon publication.
Abstract（参考訳）: マルチモーダル分野において、ビジョンと言語を統合する鍵は、優れたアライメント戦略を確立することである。近年,自己指導型学習の成功の恩恵を受け,視覚と言語に対する事前学習モデルに基づく多モーダルな意味表現が顕著に進歩している。しかし、視覚的意味表現の改善の余地はまだ残っている。空間的セマンティックコヒーレンスとノイズに対する脆弱性の欠如により、現在のピクセルやパッチベースの方法で複雑なシーン境界を正確に抽出することは困難である。そこで本研究では,学習可能な画像データの包括的コンパクト表現としてスーパーピクセルを開発し,知覚的に類似した画素をクラスタリングすることで,その後の処理における視覚的プリミティブの数を効果的に削減する。より正確なトポロジ的関係を明らかにするために,MDGCN (Multiscale Different Graph Convolutional Network) を提案する。画像全体を、構成する視覚パターンの微調整された階層構造として解析し、隣接するスーパーピクセルをグラフノードとして段階的に結合することで、マルチスケールな特徴をキャプチャする。さらに,グラフ構造を通して隣接ノード間の差異を予測し,グラフノードのキー情報収集を容易にし,実際の意味関係を推論する。その後、異なる地域規模で相補的な空間情報を学習することで偏差の理解を避けるため、ボトムアップ方式でマルチレベル融合ルールを設計する。提案手法は,複数の下流タスク学習に適用可能である。広汎な実験により,本手法は視覚的推論における他の最先端手法と競合することを示した。私たちのコードは出版時に公開される。

関連論文リスト

PixelWorld: How Far Are We from Perceiving Everything as Pixels? [62.068243387551085]
最近のエージェント言語モデルは、密に絡み合った視覚情報やテキスト情報を含む現実世界の環境と相互作用する必要がある。我々は、自然言語、表、数学的、図形的な入力を共有ピクセル空間にレンダリングするベンチマークであるPerceive Everything as Pixels (PEAP)を紹介する。実験の結果,PEAPは意味理解タスクにおけるトークンベースのアプローチと同等の性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-01-31T17:39:21Z)
Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-01-18T10:28:45Z)
Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文参考訳（メタデータ） (2023-09-11T14:32:04Z)
Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文参考訳（メタデータ） (2023-07-22T14:17:19Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
Maximize the Exploration of Congeneric Semantics for Weakly Supervised Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。 PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文参考訳（メタデータ） (2021-10-08T08:59:16Z)
Unsupervised Image Segmentation by Mutual Information Maximization and Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文参考訳（メタデータ） (2021-07-01T18:36:27Z)
Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文参考訳（メタデータ） (2021-01-28T11:35:32Z)
AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文参考訳（メタデータ） (2021-01-26T10:40:13Z)
Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文参考訳（メタデータ） (2020-12-09T12:40:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。