論文の概要: Piece it Together: Part-Based Concepting with IP-Priors
- arxiv url: http://arxiv.org/abs/2503.10365v1
- Date: Thu, 13 Mar 2025 13:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:44.489020
- Title: Piece it Together: Part-Based Concepting with IP-Priors
- Title(参考訳): まとめて見る:IP-Priorsによるパートベース概念
- Authors: Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or,
- Abstract要約: ユーザが提供するビジュアルコンポーネントの一部集合をシームレスにコヒーレントな構成に統合する生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強力で過小評価された表現空間に基づいている。
また、与えられたタスクに対するIP-Adapter+のプロンプトアテンデンスを大幅に改善するLoRAベースの微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 52.01640707131325
- License:
- Abstract: Advanced generative models excel at synthesizing images but often rely on text-based conditioning. Visual designers, however, often work beyond language, directly drawing inspiration from existing visual elements. In many cases, these elements represent only fragments of a potential concept-such as an uniquely structured wing, or a specific hairstyle-serving as inspiration for the artist to explore how they can come together creatively into a coherent whole. Recognizing this need, we introduce a generative framework that seamlessly integrates a partial set of user-provided visual components into a coherent composition while simultaneously sampling the missing parts needed to generate a plausible and complete concept. Our approach builds on a strong and underexplored representation space, extracted from IP-Adapter+, on which we train IP-Prior, a lightweight flow-matching model that synthesizes coherent compositions based on domain-specific priors, enabling diverse and context-aware generations. Additionally, we present a LoRA-based fine-tuning strategy that significantly improves prompt adherence in IP-Adapter+ for a given task, addressing its common trade-off between reconstruction quality and prompt adherence.
- Abstract(参考訳): 高度な生成モデルは画像の合成に優れるが、しばしばテキストベースの条件付けに依存している。
しかし、ビジュアルデザイナは、しばしば言語を超えて働き、既存のビジュアル要素から直接インスピレーションを引き出す。
多くの場合、これらの要素は、一意に構造化された翼のような潜在的な概念の断片のみを表しており、アーティストが創造的にコヒーレントな全体へと結束する方法を探求するためのインスピレーションとして特定のヘアスタイルを提供する。
このニーズを認識しながら、ユーザが提供する視覚コンポーネントの一部集合をシームレスにコヒーレントな構成に統合し、かつ、可塑性で完全な概念を生成するために必要な欠落部分を同時にサンプリングする生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強靭で過小評価された表現空間に基づいて構築され,ドメイン固有の前提に基づいてコヒーレントな合成を合成し,多種多様なコンテキスト認識世代を可能にする,軽量なフローマッチングモデルであるIP-Priorを訓練する。
さらに,LoRAをベースとした微調整戦略により,IP-Adapter+におけるタスクの即時順守を大幅に改善し,リコンストラクション品質と即時順守の共通トレードオフに対処する。
関連論文リスト
- Object-centric Binding in Contrastive Language-Image Pretraining [9.376583779399834]
本稿では, 強陰性拡張の設計に依存した, 一般的な戦略から分岐する新しいアプローチを提案する。
本研究は,事前学習したCLIP様モデルに誘導バイアスを組み込むことにより,追加のハードネガティブを使わずに構成的理解を改善することに焦点を当てる。
得られたモデルは複雑なシーンのより正確でサンプル効率の良い画像テキストマッチングへの道を開く。
論文 参考訳(メタデータ) (2025-02-19T21:30:51Z) - IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。
提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。
テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文 参考訳(メタデータ) (2025-02-19T18:49:31Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - PartCraft: Crafting Creative Objects by Parts [128.30514851911218]
本稿では、ユーザが「選択」できることによって、生成的視覚AIにおける創造的制御を促進する。
私たちは初めて、創造的な努力のために、視覚的概念をパーツごとに選択できるようにしました。
選択された視覚概念を正確にキャプチャするきめ細かい生成。
論文 参考訳(メタデータ) (2024-07-05T15:53:04Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z) - SAFCAR: Structured Attention Fusion for Compositional Action Recognition [47.43959215267547]
我々は,物体検出からの情報を組み合わせた新しい自己注意機構(Structured Attention Fusion, SAF)を開発し, 検証する。
提案手法は, 従来の技術システムよりも, 新規な動詞合成を効果的に認識するものである。
我々は,Something-V2データセットの課題であるSomesing-Elseタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-12-03T17:45:01Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。