論文の概要: Visual Commonsense based Heterogeneous Graph Contrastive Learning
- arxiv url: http://arxiv.org/abs/2311.06553v1
- Date: Sat, 11 Nov 2023 12:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:55:13.710265
- Title: Visual Commonsense based Heterogeneous Graph Contrastive Learning
- Title(参考訳): ビジュアルコモンセンスに基づく異種グラフコントラスト学習
- Authors: Zongzhao Li, Xiangyu Zhu, Xi Zhang, Zhaoxiang Zhang, Zhen Lei
- Abstract要約: 視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
- 参考スコア(独自算出の注目度): 79.22206720896664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to select relevant key objects and reason about the complex relationships
cross vision and linguistic domain are two key issues in many multi-modality
applications such as visual question answering (VQA). In this work, we
incorporate the visual commonsense information and propose a heterogeneous
graph contrastive learning method to better finish the visual reasoning task.
Our method is designed as a plug-and-play way, so that it can be quickly and
easily combined with a wide range of representative methods. Specifically, our
model contains two key components: the Commonsense-based Contrastive Learning
and the Graph Relation Network. Using contrastive learning, we guide the model
concentrate more on discriminative objects and relevant visual commonsense
attributes. Besides, thanks to the introduction of the Graph Relation Network,
the model reasons about the correlations between homogeneous edges and the
similarities between heterogeneous edges, which makes information transmission
more effective. Extensive experiments on four benchmarks show that our method
greatly improves seven representative VQA models, demonstrating its
effectiveness and generalizability.
- Abstract(参考訳): 視覚的質問応答 (VQA) のような多くのマルチモーダルアプリケーションにおいて、関連するキーオブジェクトの選択方法と複雑な関係性や言語領域の推論は2つの重要な問題である。
本研究では,視覚的コモンセンス情報を組み込んで,視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,様々な代表手法と迅速かつ容易に組み合わせることができる。
具体的には,コモンセンスに基づくコントラスト学習とグラフ関係ネットワークという2つの重要な構成要素を含む。
コントラスト学習を用いて,識別対象と関連する視覚コモンセンス属性に焦点を絞ったモデルを指導する。
さらに、グラフ関係ネットワークの導入により、同種エッジ間の相関関係と異種エッジ間の類似性に関するモデルが原因となり、情報伝達がより効果的になる。
4つのベンチマーク実験により,本手法は7つの代表的なVQAモデルを大幅に改善し,その有効性と一般化性を示した。
関連論文リスト
- Separating common from salient patterns with Contrastive Representation
Learning [2.250968907999846]
コントラスト分析は、2つのデータセット間の変動の共通要因を分離することを目的としている。
変分オートエンコーダに基づく現在のモデルは意味表現の学習において性能が劣っている。
コントラスト分析に適合した意味表現表現を学習するためのコントラスト学習の活用を提案する。
論文 参考訳(メタデータ) (2024-02-19T08:17:13Z) - Entropy Neural Estimation for Graph Contrastive Learning [9.032721248598088]
グラフ上のコントラスト学習は、ノードの区別可能な高レベル表現を抽出することを目的としている。
本稿では,データセットのビュー間のペアワイズ表現を対比する,単純かつ効果的なサブセットサンプリング戦略を提案する。
7つのグラフベンチマークで広範な実験を行い、提案手法は競合性能を実現する。
論文 参考訳(メタデータ) (2023-07-26T03:55:08Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial
Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。
提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文 参考訳(メタデータ) (2022-03-01T02:32:25Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Deep Contrastive Learning for Multi-View Network Embedding [20.035449838566503]
マルチビューネットワーク埋め込みは、ネットワーク内のノードを低次元ベクトルに投影することを目的としている。
ほとんどの対照的な学習ベースの手法は、主に高品質なグラフ埋め込みに依存している。
マルチビューネットワーク埋め込み(CREME)のための新しいノード間コントラスト学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-08-16T06:29:18Z) - Group Contrastive Self-Supervised Learning on Graphs [101.45974132613293]
グラフ上での自己教師型学習をコントラッシブ手法を用いて研究する。
複数の部分空間におけるグラフの対比により、グラフエンコーダはより豊富な特徴を捉えることができる。
論文 参考訳(メタデータ) (2021-07-20T22:09:21Z) - Mutual Graph Learning for Camouflaged Object Detection [31.422775969808434]
主な課題は、前景の物体と背景の環境との固有の類似性によって、深いモデルによって抽出された特徴が区別できないことである。
我々は,正規格子からグラフ領域への従来の相互学習の考え方を一般化する,新しい相互グラフ学習モデルを設計する。
すべてのタスク間インタラクションをモデリングするために共有関数を使用するほとんどの相互学習アプローチとは対照的に、mglは異なる補完関係を扱うための型付き関数を備えている。
論文 参考訳(メタデータ) (2021-04-03T10:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。