論文の概要: Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG
- arxiv url: http://arxiv.org/abs/2412.09614v1
- Date: Thu, 12 Dec 2024 18:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:14.737784
- Title: Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG
- Title(参考訳): Context Canvas:知識グラフに基づくRAGによるテキスト・画像拡散モデルの強化
- Authors: Kavana Venkatesh, Yusuf Dalva, Ismini Lourentzou, Pinar Yanardag,
- Abstract要約: 本稿では,グラフベースのRAGを組み込むことにより,テキスト・ツー・イメージ・モデルの能力を高める新しい手法を提案する。
本システムは知識グラフから詳細な文字情報と関係データを動的に取得し,視覚的・文脈的にリッチな画像の生成を可能にする。
- 参考スコア(独自算出の注目度): 6.701537544179892
- License:
- Abstract: We introduce a novel approach to enhance the capabilities of text-to-image models by incorporating a graph-based RAG. Our system dynamically retrieves detailed character information and relational data from the knowledge graph, enabling the generation of visually accurate and contextually rich images. This capability significantly improves upon the limitations of existing T2I models, which often struggle with the accurate depiction of complex or culturally specific subjects due to dataset constraints. Furthermore, we propose a novel self-correcting mechanism for text-to-image models to ensure consistency and fidelity in visual outputs, leveraging the rich context from the graph to guide corrections. Our qualitative and quantitative experiments demonstrate that Context Canvas significantly enhances the capabilities of popular models such as Flux, Stable Diffusion, and DALL-E, and improves the functionality of ControlNet for fine-grained image editing tasks. To our knowledge, Context Canvas represents the first application of graph-based RAG in enhancing T2I models, representing a significant advancement for producing high-fidelity, context-aware multi-faceted images.
- Abstract(参考訳): 本稿では,グラフベースのRAGを組み込むことにより,テキスト・ツー・イメージ・モデルの能力を高める新しい手法を提案する。
本システムは知識グラフから詳細な文字情報と関係データを動的に取得し,視覚的・文脈的にリッチな画像の生成を可能にする。
この能力は既存のT2Iモデルの制約を大幅に改善し、データセットの制約により複雑な、あるいは文化的に特定の対象の正確な描写に苦慮することが多い。
さらに,視覚的出力の一貫性と忠実性を確保するために,テキスト・ツー・イメージ・モデルのための新たな自己補正機構を提案する。
定性的かつ定量的な実験により、Context Canvas は Flux, Stable Diffusion, DALL-E などの人気モデルの能力を大幅に向上し、きめ細かい画像編集タスクのための ControlNet の機能を改善した。
我々の知る限り、Context Canvasは、T2Iモデルの強化におけるグラフベースのRAGの最初の応用であり、高忠実でコンテキスト対応のマルチ顔画像を作成するための大きな進歩を示している。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance [46.77060502803466]
本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-24T08:00:46Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Generating Faithful Text From a Knowledge Graph with Noisy Reference
Text [26.6775578332187]
与えられたグラフから忠実な自然言語テキストを生成することができるKG-to-text生成モデルを開発した。
まず、コントラスト学習を利用して、テキスト内の忠実な情報と幻覚的な情報を区別するモデルの能力を強化する。
第2に、制御可能なテキスト生成技術を用いて、デコーダに生成したテキストの幻覚レベルを制御する権限を与える。
論文 参考訳(メタデータ) (2023-08-12T07:12:45Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。