論文の概要: Zero-Shot Visual Concept Blending Without Text Guidance
- arxiv url: http://arxiv.org/abs/2503.21277v1
- Date: Thu, 27 Mar 2025 08:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:36.396831
- Title: Zero-Shot Visual Concept Blending Without Text Guidance
- Title(参考訳): テキスト誘導のないゼロショットビジュアルコンセプトブレンディング
- Authors: Hiroya Makino, Takahiro Yamaguchi, Hiroyuki Sakai,
- Abstract要約: 視覚概念ブレンディング」は、複数の参照画像の特徴をソース画像に転送するきめ細かい制御を提供する。
本手法は, テクスチャ, 形状, 動き, スタイル, 抽象的な概念変換の柔軟な伝達を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose a novel, zero-shot image generation technique called "Visual Concept Blending" that provides fine-grained control over which features from multiple reference images are transferred to a source image. If only a single reference image is available, it is difficult to isolate which specific elements should be transferred. However, using multiple reference images, the proposed approach distinguishes between common and unique features by selectively incorporating them into a generated output. By operating within a partially disentangled Contrastive Language-Image Pre-training (CLIP) embedding space (from IP-Adapter), our method enables the flexible transfer of texture, shape, motion, style, and more abstract conceptual transformations without requiring additional training or text prompts. We demonstrate its effectiveness across a diverse range of tasks, including style transfer, form metamorphosis, and conceptual transformations, showing how subtle or abstract attributes (e.g., brushstroke style, aerodynamic lines, and dynamism) can be seamlessly combined into a new image. In a user study, participants accurately recognized which features were intended to be transferred. Its simplicity, flexibility, and high-level control make Visual Concept Blending valuable for creative fields such as art, design, and content creation, where combining specific visual qualities from multiple inspirations is crucial.
- Abstract(参考訳): 本稿では,複数の参照画像からの特徴がソース画像に転送される細粒度制御が可能な,新しいゼロショット画像生成手法"Visual Concept Blending"を提案する。
単一の参照イメージしか利用できない場合、どの特定の要素を転送すべきかを分離することは困難である。
しかし, 提案手法は, 複数の参照画像を用いて, 出力に選択的に組み込むことにより, 共通特徴と特異特徴を区別する。
コントラスト言語-画像事前学習(CLIP)埋め込み空間(IP-Adapter)内で動作することにより,テクスチャ,形状,動き,スタイル,抽象的な変換を,追加のトレーニングやテキストプロンプトを必要とせずに柔軟に行うことができる。
書式変換や形態変化,概念変換など,多種多様なタスクにおいて有効性を示すとともに,微妙あるいは抽象的な属性(例えば,ブラシストロークスタイル,空力線,ダイナミズム)がいかにシームレスに新しいイメージに組み合わされるかを示した。
ユーザスタディでは,どの特徴を移すべきかを参加者が正確に認識した。
そのシンプルさ、柔軟性、高レベルなコントロールにより、Visual Concept Blendingは、芸術、デザイン、コンテンツ制作といった創造的な分野に価値があり、複数のインスピレーションから特定の視覚的品質を組み合わせることが重要である。
関連論文リスト
- IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。
提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。
テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文 参考訳(メタデータ) (2025-02-19T18:49:31Z) - ArtCrafter: Text-Image Aligning Style Transfer via Embedding Reframing [22.054292195271476]
ArtCrafterは、テキストから画像へのスタイル転送のための新しいフレームワークである。
注意に基づくスタイル抽出モジュールを導入する。
また,新たなテキスト画像アライメント拡張コンポーネントを提案する。
論文 参考訳(メタデータ) (2025-01-03T19:17:27Z) - Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。
このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。
我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-01-02T18:59:44Z) - MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
概念内の個々のコンポーネントをカスタマイズし、再構成できる新しいタスクである、コンポーネント制御可能なパーソナライゼーションを導入する。
この課題は、望ましくない要素が概念を歪ませる意味汚染と、目的とする概念と構成要素を不均等に学習する意味不均衡という2つの課題に直面する。
動的マスケド・デグラデーション(Dynamic Masked Degradation, 動的マスケド・デグラデーション, 動的マスケド・デグラデーション)を用いて、望まない視覚的セマンティクスを適応的に摂動し、望まれる視覚的セマンティクスをよりバランスよく学習するために、デュアルストリーム・バランシング(Dual-Stream Balancing)を設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。