論文の概要: Context Diffusion: In-Context Aware Image Generation
- arxiv url: http://arxiv.org/abs/2312.03584v1
- Date: Wed, 6 Dec 2023 16:19:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:23:14.660334
- Title: Context Diffusion: In-Context Aware Image Generation
- Title(参考訳): コンテキスト拡散:コンテキスト内認識画像生成
- Authors: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan,
Vignesh Ramanathan, Filip Radenovic
- Abstract要約: コンテキスト拡散(Context Diffusion)は、画像生成モデルがコンテキストで提示された視覚的な例から学ぶことを可能にする拡散ベースのフレームワークである。
実験とユーザスタディにより、Context Diffusionはドメイン内タスクとドメイン外タスクの両方で優れています。
- 参考スコア(独自算出の注目度): 29.281927418777624
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Context Diffusion, a diffusion-based framework that enables image
generation models to learn from visual examples presented in context. Recent
work tackles such in-context learning for image generation, where a query image
is provided alongside context examples and text prompts. However, the quality
and fidelity of the generated images deteriorate when the prompt is not
present, demonstrating that these models are unable to truly learn from the
visual context. To address this, we propose a novel framework that separates
the encoding of the visual context and preserving the structure of the query
images. This results in the ability to learn from the visual context and text
prompts, but also from either one of them. Furthermore, we enable our model to
handle few-shot settings, to effectively address diverse in-context learning
scenarios. Our experiments and user study demonstrate that Context Diffusion
excels in both in-domain and out-of-domain tasks, resulting in an overall
enhancement in image quality and fidelity compared to counterpart models.
- Abstract(参考訳): コンテキスト拡散(Context Diffusion)は、画像生成モデルがコンテキストで提示された視覚的な例から学習できるようにする拡散ベースのフレームワークである。
近年の作業では、コンテキストサンプルやテキストプロンプトとともにクエリ画像を提供する画像生成のためのコンテキスト内学習に取り組みつつある。
しかし、生成した画像の品質と忠実度は、プロンプトが存在しないときに低下し、これらのモデルが視覚的文脈から真に学習できないことを示す。
そこで本稿では,視覚的コンテキストのエンコーディングを分離し,クエリ画像の構造を保存する新しいフレームワークを提案する。
これにより、視覚的コンテキストやテキストのプロンプトから学ぶことができるだけでなく、どちらかから学ぶこともできる。
さらに,本モデルでは,多種多様なコンテキスト内学習シナリオを効果的に扱うことができる。
実験とユーザスタディにより、コンテキストの拡散がドメイン内タスクとドメイン外タスクの両方において優れていることが示され、その結果、対応するモデルと比較して画質と忠実度が全体的に向上した。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。