論文の概要: Relation Rectification in Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.20249v1
- Date: Fri, 29 Mar 2024 15:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:14:57.437834
- Title: Relation Rectification in Diffusion Model
- Title(参考訳): 拡散モデルにおける関係の定式化
- Authors: Yinwei Wu, Xingyi Yang, Xinchao Wang,
- Abstract要約: 本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
- 参考スコア(独自算出の注目度): 64.84686527988809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their exceptional generative abilities, large text-to-image diffusion models, much like skilled but careless artists, often struggle with accurately depicting visual relationships between objects. This issue, as we uncover through careful analysis, arises from a misaligned text encoder that struggles to interpret specific relationships and differentiate the logical order of associated objects. To resolve this, we introduce a novel task termed Relation Rectification, aiming to refine the model to accurately represent a given relationship it initially fails to generate. To address this, we propose an innovative solution utilizing a Heterogeneous Graph Convolutional Network (HGCN). It models the directional relationships between relation terms and corresponding objects within the input prompts. Specifically, we optimize the HGCN on a pair of prompts with identical relational words but reversed object orders, supplemented by a few reference images. The lightweight HGCN adjusts the text embeddings generated by the text encoder, ensuring the accurate reflection of the textual relation in the embedding space. Crucially, our method retains the parameters of the text encoder and diffusion model, preserving the model's robust performance on unrelated descriptions. We validated our approach on a newly curated dataset of diverse relational data, demonstrating both quantitative and qualitative enhancements in generating images with precise visual relations. Project page: https://wuyinwei-hah.github.io/rrnet.github.io/.
- Abstract(参考訳): 例外的な生成能力にもかかわらず、大きなテキストと画像の拡散モデルは、熟練したが不注意な芸術家のように、しばしばオブジェクト間の視覚的関係を正確に描写するのに苦労する。
この問題は、慎重に分析することで、特定の関係を解釈し、関連するオブジェクトの論理的順序を区別するのに苦労する、不整合テキストエンコーダから生じる。
そこで本研究では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを提案する。
そこで我々は,HGCN (Heterogeneous Graph Convolutional Network) を用いた革新的な手法を提案する。
入力プロンプト内の関係項と対応するオブジェクト間の方向関係をモデル化する。
具体的には、HGCNを2つのプロンプトに最適化し、同一のリレーショナルワードを持つが、いくつかの参照画像で補足されたオブジェクト順序を反転させる。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
重要なことは、本手法はテキストエンコーダと拡散モデルのパラメータを保持し、無関係な記述に対するモデルの頑健な性能を保っている。
我々は,画像生成における定量的・質的な拡張と,正確な視覚的関係を持つ画像生成の両面を実証し,多種多様な関係データの新たに収集したデータセットに対するアプローチを検証した。
プロジェクトページ:https://wuyinwei-hah.github.io/rrnet.github.io/
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance [46.77060502803466]
本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-24T08:00:46Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions [6.231370972617915]
ゼロショット参照表現理解は、提供されるテキストプロンプトに対応する画像内のバウンディングボックスをローカライズすることを目的としている。
既存の視覚言語アライメントモデル、例えばCLIPは両方の側面で苦労しているため、このタスクに直接使用することはできない。
我々は、大きな基礎モデルを活用して、画像とテキストの両方を(オブジェクト、述語、オブジェクト)の形式で三つ子に分解する。
論文 参考訳(メタデータ) (2023-11-28T18:55:37Z) - Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval [89.30660533051514]
クロスモーダル検索は、クエリ画像に最もよくマッチするテキストのデータベースを検索するのに好まれるツールである。
画像テキスト検索モデルは通常、頻繁なオブジェクト共起など、トレーニングデータに刺激的な相関関係を学習する。
ODmAP@kは,モデルのロバスト性を測定するオブジェクトデコリレーション・メトリックであり,トレーニングデータに刺激的な相関関係を示す。
論文 参考訳(メタデータ) (2023-04-06T21:45:46Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。