論文の概要: Context Diffusion: In-Context Aware Image Generation
- arxiv url: http://arxiv.org/abs/2312.03584v2
- Date: Wed, 23 Jul 2025 14:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.618306
- Title: Context Diffusion: In-Context Aware Image Generation
- Title(参考訳): コンテキスト拡散: コンテキスト認識による画像生成
- Authors: Ivona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic,
- Abstract要約: コンテキスト拡散(Context Diffusion)は、画像生成モデルがコンテキストで提示された視覚的な例から学ぶことを可能にする拡散ベースのフレームワークである。
我々の実験と人的評価は、コンテキスト拡散がドメイン内タスクとドメイン外タスクの両方で優れていることを示している。
- 参考スコア(独自算出の注目度): 27.63447546705641
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Context Diffusion, a diffusion-based framework that enables image generation models to learn from visual examples presented in context. Recent work tackles such in-context learning for image generation, where a query image is provided alongside context examples and text prompts. However, the quality and context fidelity of the generated images deteriorate when the prompt is not present, demonstrating that these models cannot truly learn from the visual context. To address this, we propose a novel framework that separates the encoding of the visual context and the preservation of the desired image layout. This results in the ability to learn from the visual context and prompts, but also from either of them. Furthermore, we enable our model to handle few-shot settings, to effectively address diverse in-context learning scenarios. Our experiments and human evaluation demonstrate that Context Diffusion excels in both in-domain and out-of-domain tasks, resulting in an overall enhancement in image quality and context fidelity compared to counterpart models.
- Abstract(参考訳): コンテキスト拡散(Context Diffusion)は、画像生成モデルにおいて、コンテキストで提示された視覚的な例から学習することを可能にする拡散ベースのフレームワークである。
近年の作業では、コンテキストサンプルやテキストプロンプトとともにクエリ画像が提供される画像生成のためのコンテキスト内学習に取り組みつつある。
しかし、生成した画像の品質とコンテキストの忠実度は、プロンプトが存在しないときに低下し、これらのモデルが視覚的コンテキストから真に学習できないことを示す。
そこで本稿では,視覚コンテキストの符号化と,所望の画像レイアウトの保存を分離する新しいフレームワークを提案する。
これにより、視覚的コンテキストやプロンプトから学ぶことができるだけでなく、どちらかから学ぶこともできる。
さらに,本モデルでは,多種多様なコンテキスト内学習シナリオを効果的に扱うことができる。
我々の実験と人的評価により、コンテキスト拡散はドメイン内タスクとドメイン外タスクの両方で優れており、結果として画像の品質とコンテキストの忠実度は、他のモデルと比較して全体的に向上することが示された。
関連論文リスト
- Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - DALL-E for Detection: Language-driven Context Image Synthesis for Object
Detection [18.276823176045525]
本稿では,大規模なコンテキスト画像の自動生成のための新しいパラダイムを提案する。
我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。
本研究では,4つのオブジェクト検出データセットに対する事前の文脈画像生成手法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2022-06-20T06:43:17Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。