論文の概要: Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors
- arxiv url: http://arxiv.org/abs/2604.06074v1
- Date: Tue, 07 Apr 2026 16:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.942143
- Title: Graph-PiT: Enhancing Structural Coherence in Part-Based Image Synthesis via Graph Priors
- Title(参考訳): Graph-PiT: グラフプリミティブによる部分ベース画像合成における構造コヒーレンス向上
- Authors: Junbin Zhang, Meng Cao, Feng Tan, Yikai Lin, Yuexian Zou,
- Abstract要約: Graph-PiTは、前もってグラフを使用して視覚コンポーネントの構造的依存関係を明示的にモデル化するフレームワークである。
提案手法は, 生成概念の妥当性を高めるだけでなく, 複雑な多部画像合成のためのスケーラブルかつ解釈可能な機構も提供する。
- 参考スコア(独自算出の注目度): 44.714640500193866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving fine-grained and structurally sound controllability is a cornerstone of advanced visual generation. Existing part-based frameworks treat user-provided parts as an unordered set and therefore ignore their intrinsic spatial and semantic relationships, which often results in compositions that lack structural integrity. To bridge this gap, we propose Graph-PiT, a framework that explicitly models the structural dependencies of visual components using a graph prior. Specifically, we represent visual parts as nodes and their spatial-semantic relationships as edges. At the heart of our method is a Hierarchical Graph Neural Network (HGNN) module that performs bidirectional message passing between coarse-grained part-level super-nodes and fine-grained IP+ token sub-nodes, refining part embeddings before they enter the generative pipeline. We also introduce a graph Laplacian smoothness loss and an edge-reconstruction loss so that adjacent parts acquire compatible, relation-aware embeddings. Quantitative experiments on controlled synthetic domains (character, product, indoor layout, and jigsaw), together with qualitative transfer to real web images, show that Graph-PiT improves structural coherence over vanilla PiT while remaining compatible with the original IP-Prior pipeline. Ablation experiments confirm that explicit relational reasoning is crucial for enforcing user-specified adjacency constraints. Our approach not only enhances the plausibility of generated concepts but also offers a scalable and interpretable mechanism for complex, multi-part image synthesis. The code is available at https://github.com/wolf-bailang/Graph-PiT.
- Abstract(参考訳): 微粒で構造的な音の制御性を達成することは、先進的な視覚生成の基盤となる。
既存の部分ベースのフレームワークは、ユーザが提供する部分を非順序集合として扱い、従ってそれらの固有の空間的および意味的関係を無視し、構造的整合性に欠ける構成をもたらす。
このギャップを埋めるために、我々は、前もってグラフを使用して視覚的コンポーネントの構造的依存関係を明示的にモデル化するフレームワークであるGraph-PiTを提案する。
具体的には,視覚的部分をノードとして表現し,その空間意味的関係をエッジとして表現する。
提案手法の中心となるのは階層グラフニューラルネットワーク (HGNN) モジュールで, 粗粒状部分レベルスーパーノードと細粒状IP+トークンサブノード間の双方向メッセージパッシングを行う。
また,グラフラプラシアン滑らか度損失とエッジ再構成損失を導入し,隣接部が適合性のある関係認識型埋め込みを実現する。
制御された合成ドメイン(キャラクタ、製品、屋内レイアウト、ジグソー)に関する定量的実験は、実際のWeb画像への定性的な転送とともに、Graph-PiTが元のIP-Priorパイプラインとの互換性を維持しながらバニラPiT上の構造的コヒーレンスを改善することを示した。
アブレーション実験により、明示的なリレーショナル推論は、ユーザが指定した隣接制約を強制するために重要であることが確認された。
提案手法は, 生成概念の妥当性を高めるだけでなく, 複雑な多部画像合成のためのスケーラブルかつ解釈可能な機構も提供する。
コードはhttps://github.com/wolf-bailang/Graph-PiT.comで公開されている。
関連論文リスト
- Beyond Message Passing: Neural Graph Pattern Machine [50.78679002846741]
本稿では,グラフサブストラクチャから直接学習することで,メッセージパッシングをバイパスする新しいフレームワークであるNeural Graph Pattern Machine(GPM)を紹介する。
GPMはタスク関連グラフパターンを効率的に抽出し、エンコードし、優先順位付けする。
論文 参考訳(メタデータ) (2025-01-30T20:37:47Z) - Improving Graph Neural Networks by Learning Continuous Edge Directions [0.0]
グラフニューラルネットワーク(GNN)は、従来、非指向グラフ上の拡散に似たメッセージパッシング機構を採用している。
私たちのキーとなる洞察は、ファジィエッジ方向をグラフのエッジに割り当てることです。
ファジィエッジを持つグラフを学習するためのフレームワークとして,Continuous Edge Direction (CoED) GNNを提案する。
論文 参考訳(メタデータ) (2024-10-18T01:34:35Z) - Enhancing Scene Graph Generation with Hierarchical Relationships and Commonsense Knowledge [7.28830964611216]
この研究は、関係階層とコモンセンス知識の両方によってシーングラフを生成するための拡張されたアプローチを導入する。
我々は,シーングラフ予測システムから結果を批判するために基礎モデルを活用する,堅牢なコモンセンス検証パイプラインを実装した。
Visual GenomeとOpenImage V6データセットの実験では、既存のシーングラフ生成アルゴリズムのプラグインとプレイの拡張として、提案されたモジュールをシームレスに統合できることが示されている。
論文 参考訳(メタデータ) (2023-11-21T06:03:20Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Factorizable Graph Convolutional Networks [90.59836684458905]
本稿では,グラフに符号化された相互に絡み合った関係を明示的に解消する新しいグラフ畳み込みネットワーク(GCN)を提案する。
FactorGCNは単純なグラフを入力として取り、それをいくつかの分解グラフに分解する。
提案したFacterGCNは,合成および実世界のデータセットに対して質的かつ定量的に評価する。
論文 参考訳(メタデータ) (2020-10-12T03:01:40Z) - Learning Graph Structure With A Finite-State Automaton Layer [31.028101360041227]
本研究は,本質的なグラフ構造から抽象的関係を導出する学習の課題について考察する。
この問題を緩和して有限状態オートマトンポリシーを学習することで、これらの関係をエンドツーエンドで学習する方法を示す。
我々は,このレイヤがグリッドワールドグラフのショートカットを見つけ,Pythonプログラム上で単純な静的解析を再現できることを実証した。
論文 参考訳(メタデータ) (2020-07-09T17:01:34Z) - Graph Neural Networks with Composite Kernels [60.81504431653264]
カーネル重み付けの観点からノード集約を再解釈する。
本稿では,アグリゲーション方式における特徴類似性を考慮したフレームワークを提案する。
特徴空間における特徴類似性をエンコードするために,元の隣り合うカーネルと学習可能なカーネルの合成として特徴集約を提案する。
論文 参考訳(メタデータ) (2020-05-16T04:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。