論文の概要: InstructG2I: Synthesizing Images from Multimodal Attributed Graphs
- arxiv url: http://arxiv.org/abs/2410.07157v1
- Date: Wed, 9 Oct 2024 17:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:56:57.469110
- Title: InstructG2I: Synthesizing Images from Multimodal Attributed Graphs
- Title(参考訳): InstructG2I:マルチモーダル分布グラフからの画像の合成
- Authors: Bowen Jin, Ziqi Pang, Bingjun Guo, Yu-Xiong Wang, Jiaxuan You, Jiawei Han,
- Abstract要約: InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
- 参考スコア(独自算出の注目度): 50.852150521561676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we approach an overlooked yet critical task Graph2Image: generating images from multimodal attributed graphs (MMAGs). This task poses significant challenges due to the explosion in graph size, dependencies among graph entities, and the need for controllability in graph conditions. To address these challenges, we propose a graph context-conditioned diffusion model called InstructG2I. InstructG2I first exploits the graph structure and multimodal information to conduct informative neighbor sampling by combining personalized page rank and re-ranking based on vision-language features. Then, a Graph-QFormer encoder adaptively encodes the graph nodes into an auxiliary set of graph prompts to guide the denoising process of diffusion. Finally, we propose graph classifier-free guidance, enabling controllable generation by varying the strength of graph guidance and multiple connected edges to a node. Extensive experiments conducted on three datasets from different domains demonstrate the effectiveness and controllability of our approach. The code is available at https://github.com/PeterGriffinJin/InstructG2I.
- Abstract(参考訳): 本稿では,マルチモーダル属性グラフ(MMAG)から画像を生成するという,見過ごされながら重要なタスクであるGraph2Imageにアプローチする。
このタスクは、グラフサイズの急増、グラフエンティティ間の依存関係、およびグラフ条件における制御性の必要性により、重大な課題を提起する。
これらの課題に対処するため,InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iは、まずグラフ構造とマルチモーダル情報を利用して、パーソナライズされたページランクと視覚言語の特徴に基づく再ランクを組み合わせることで、情報的隣人サンプリングを行う。
そして、グラフノードをグラフプロンプトの補助集合に適応的に符号化し、拡散の分極過程を導出する。
最後に、グラフガイダンスと複数連結エッジの強度をノードに変化させることで、制御可能な生成を可能にするグラフ分類器フリーガイダンスを提案する。
異なる領域の3つのデータセットに対して行われた大規模な実験は、我々のアプローチの有効性と制御性を示している。
コードはhttps://github.com/PeterGriffinJin/InstructG2Iで入手できる。
関連論文リスト
- Graph Mixup with Soft Alignments [49.61520432554505]
本研究では,画像上での使用に成功しているミキサアップによるグラフデータの増大について検討する。
ソフトアライメントによるグラフ分類のための簡易かつ効果的な混合手法であるS-Mixupを提案する。
論文 参考訳(メタデータ) (2023-06-11T22:04:28Z) - SynGraphy: Succinct Summarisation of Large Networks via Small Synthetic
Representative Graphs [4.550112751061436]
大規模ネットワークデータセットの構造を視覚的に要約するSynGraphyについて述べる。
入力グラフに類似した構造特性を持つために生成されたより小さなグラフを描画する。
論文 参考訳(メタデータ) (2023-02-15T16:00:15Z) - Towards Graph Self-Supervised Learning with Contrastive Adjusted Zooming [48.99614465020678]
本稿では,グラフコントラスト適応ズームによる自己教師付きグラフ表現学習アルゴリズムを提案する。
このメカニズムにより、G-Zoomはグラフから複数のスケールから自己超越信号を探索して抽出することができる。
我々は,実世界のデータセットに関する広範な実験を行い,提案したモデルが常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-20T22:45:53Z) - Edge but not Least: Cross-View Graph Pooling [76.71497833616024]
本稿では,重要なグラフ構造情報を活用するために,クロスビューグラフプーリング(Co-Pooling)手法を提案する。
クロスビュー相互作用、エッジビュープーリング、ノードビュープーリングにより、相互にシームレスに強化され、より情報的なグラフレベルの表現が学習される。
論文 参考訳(メタデータ) (2021-09-24T08:01:23Z) - A Robust and Generalized Framework for Adversarial Graph Embedding [73.37228022428663]
本稿では,AGE という逆グラフ埋め込みのための頑健なフレームワークを提案する。
AGEは、暗黙の分布から強化された負のサンプルとして偽の隣接ノードを生成する。
本フレームワークでは,3種類のグラフデータを扱う3つのモデルを提案する。
論文 参考訳(メタデータ) (2021-05-22T07:05:48Z) - Accurate Learning of Graph Representations with Graph Multiset Pooling [45.72542969364438]
本稿では,その構造的依存関係に応じてノード間の相互作用をキャプチャするグラフマルチセットトランス (GMT) を提案する。
実験の結果,GMTはグラフ分類ベンチマークにおいて,最先端のグラフプーリング法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-02-23T07:45:58Z) - MathNet: Haar-Like Wavelet Multiresolution-Analysis for Graph
Representation and Learning [31.42901131602713]
本稿では,マルチレゾリューション・ハール型ウェーブレット(MathNet)を用いたグラフニューラルネットワークのためのフレームワークを提案する。
提案したMathNetは、特にデータセットにおいて、既存のGNNモデルよりも優れている。
論文 参考訳(メタデータ) (2020-07-22T05:00:59Z) - Second-Order Pooling for Graph Neural Networks [62.13156203025818]
グラフプーリングとして2次プールを提案するが、これは上記の課題を自然に解決する。
グラフニューラルネットワークによる2次プールの直接利用は、実用的な問題を引き起こすことを示す。
本稿では,2次プールに基づく2つの新しいグローバルグラフプーリング手法,すなわちバイリニアマッピングと2次プールを提案する。
論文 参考訳(メタデータ) (2020-07-20T20:52:36Z) - Graph Representation Learning Network via Adaptive Sampling [4.996520403438455]
Graph Attention Network(GAT)とGraphSAGEは、グラフ構造化データを操作するニューラルネットワークアーキテクチャである。
GraphSAGEが提起した課題のひとつは、グラフ構造に基づいた隣の機能をスマートに組み合わせる方法だ。
より効率的で,異なるエッジ型情報を組み込むことが可能な,これらの問題に対処する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-06-08T14:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。