Fugu-MT 論文翻訳(概要): SketchFlex: Facilitating Spatial-Semantic Coherence in Text-to-Image Generation with Region-Based Sketches

論文の概要: SketchFlex: Facilitating Spatial-Semantic Coherence in Text-to-Image Generation with Region-Based Sketches

arxiv url: http://arxiv.org/abs/2502.07556v1
Date: Tue, 11 Feb 2025 13:48:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.172123
Title: SketchFlex: Facilitating Spatial-Semantic Coherence in Text-to-Image Generation with Region-Based Sketches
Title（参考訳）: SketchFlex:地域スケッチを用いたテキスト・画像生成における空間意味コヒーレンスの実現
Authors: Haichuan Lin, Yilin Ye, Jiazhi Xia, Wei Zeng,
Abstract要約: SketchFlexは空間条件付き画像生成の柔軟性を改善するために設計されたインタラクティブシステムである。クラウドソースされたオブジェクト属性とリレーションシップによってリッチ化されたセマンティック空間内の合理的な記述でユーザプロンプトを推論する。ユーザの粗いスケッチをキャニーベースの形状アンカーに洗練し、ユーザ意図の生成品質とアライメントを保証する。
参考スコア（独自算出の注目度）: 4.55322003438174
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image models can generate visually appealing images from text descriptions. Efforts have been devoted to improving model controls with prompt tuning and spatial conditioning. However, our formative study highlights the challenges for non-expert users in crafting appropriate prompts and specifying fine-grained spatial conditions (e.g., depth or canny references) to generate semantically cohesive images, especially when multiple objects are involved. In response, we introduce SketchFlex, an interactive system designed to improve the flexibility of spatially conditioned image generation using rough region sketches. The system automatically infers user prompts with rational descriptions within a semantic space enriched by crowd-sourced object attributes and relationships. Additionally, SketchFlex refines users' rough sketches into canny-based shape anchors, ensuring the generation quality and alignment of user intentions. Experimental results demonstrate that SketchFlex achieves more cohesive image generations than end-to-end models, meanwhile significantly reducing cognitive load and better matching user intentions compared to region-based generation baseline.
Abstract（参考訳）: テキスト・ツー・イメージ・モデルは、テキスト記述から視覚的に魅力的な画像を生成することができる。迅速なチューニングと空間条件付けによるモデル制御の改善に努力が注がれている。しかし,本稿の形式的研究は,特に複数のオブジェクトが関与している場合において,適切なプロンプトを作成し,詳細な空間条件(例えば,深度やキャニー参照)を規定する上で,非エキスパートユーザにとっての課題を浮き彫りにしている。そこで本稿では,粗い領域スケッチを用いた空間条件画像生成の柔軟性向上を目的としたインタラクティブシステムであるSketchFlexを紹介する。このシステムは、クラウドソースされたオブジェクト属性と関係によって強化されたセマンティック空間内で、ユーザプロンプトを合理的に推論する。さらに、SketchFlexは、ユーザの粗いスケッチをキャニーベースの形状アンカーに洗練し、ユーザ意図の生成品質とアライメントを保証する。実験結果から,SketchFlexはエンド・ツー・エンドモデルよりも凝集性の高い画像生成を実現し,一方で認知負荷を著しく低減し,地域ベースの生成ベースラインよりもユーザ意図に適合することを示す。

関連論文リスト

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-06-03T16:44:15Z)
Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文参考訳（メタデータ） (2024-11-22T21:38:51Z)
You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文参考訳（メタデータ） (2024-03-12T00:27:18Z)
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文参考訳（メタデータ） (2023-08-09T17:45:04Z)
Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。 ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文参考訳（メタデータ） (2023-06-23T19:24:48Z)
GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文参考訳（メタデータ） (2023-03-31T08:06:33Z)
Reference-based Image Composition with Sketch via Structure-aware Diffusion Model [38.1193912666578]
本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
論文参考訳（メタデータ） (2023-03-31T06:12:58Z)
Adaptively-Realistic Image Generation from Stroke and Sketch with Diffusion Model [31.652827838300915]
拡散モデルに基づくスケッチやストロークからの画像合成を3次元制御する統合フレームワークを提案する。我々のフレームワークは、形状、色、リアリズムを制御したカスタマイズ画像の生成に柔軟性を提供しながら、最先端のパフォーマンスを実現している。提案手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。
論文参考訳（メタデータ） (2022-08-26T13:59:26Z)
Deep Generation of Face Images from Sketches [36.146494762987146]
ディープ・イメージ・ツー・イメージの翻訳技術により、フリーハンドスケッチから高速に顔画像を生成することができる。既存のソリューションはスケッチに過度に適合する傾向にあり、プロのスケッチやエッジマップを入力として必要とします。本稿では,画像の形状空間を暗黙的にモデル化し,この空間の顔画像を合成し,入力スケッチを近似する手法を提案する。本手法は,入力スケッチをソフトな制約として使用することにより,粗いスケッチや不完全なスケッチであっても高品質な顔画像を生成することができる。
論文参考訳（メタデータ） (2020-06-01T16:20:23Z)
SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文参考訳（メタデータ） (2020-03-05T14:54:10Z)
Deep Plastic Surgery: Robust and Controllable Image Editing with Human-Drawn Sketches [133.01690754567252]
スケッチベースの画像編集は、人間の描いたスケッチによって提供される構造情報に基づいて、写真を合成し、修正することを目的としている。 Deep Plastic Surgeryは、手書きのスケッチ入力を使って画像のインタラクティブな編集を可能にする、新しくて堅牢で制御可能な画像編集フレームワークである。
論文参考訳（メタデータ） (2020-01-09T08:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。