論文の概要: Inspiration Seeds: Learning Non-Literal Visual Combinations for Generative Exploration
- arxiv url: http://arxiv.org/abs/2602.08615v1
- Date: Mon, 09 Feb 2026 13:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.237571
- Title: Inspiration Seeds: Learning Non-Literal Visual Combinations for Generative Exploration
- Title(参考訳): 吸気シード:生成的探索のための非リテラル視覚の組み合わせ学習
- Authors: Kfir Goldberg, Elad Richardson, Yael Vinker,
- Abstract要約: Inspiration Seedsは,画像生成を最終実行から探索的思考に移行する生成フレームワークである。
私たちはCLIPスパースオートエンコーダを用いて、CLIP潜在空間の編集方向を抽出し、概念ペアを分離する。
- 参考スコア(独自算出の注目度): 13.00602873238112
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While generative models have become powerful tools for image synthesis, they are typically optimized for executing carefully crafted textual prompts, offering limited support for the open-ended visual exploration that often precedes idea formation. In contrast, designers frequently draw inspiration from loosely connected visual references, seeking emergent connections that spark new ideas. We propose Inspiration Seeds, a generative framework that shifts image generation from final execution to exploratory ideation. Given two input images, our model produces diverse, visually coherent compositions that reveal latent relationships between inputs, without relying on user-specified text prompts. Our approach is feed-forward, trained on synthetic triplets of decomposed visual aspects derived entirely through visual means: we use CLIP Sparse Autoencoders to extract editing directions in CLIP latent space and isolate concept pairs. By removing the reliance on language and enabling fast, intuitive recombination, our method supports visual ideation at the early and ambiguous stages of creative work.
- Abstract(参考訳): 生成モデルは画像合成の強力なツールとなっているが、一般的には、慎重に製作されたテキストプロンプトを実行するために最適化されており、しばしばアイデア形成に先行するオープンエンドの視覚探索を限定的にサポートする。
対照的に、デザイナーはしばしば疎結合の視覚的参照からインスピレーションを受け、新しいアイデアを刺激する創発的なつながりを求める。
Inspiration Seedsは,画像生成を最終実行から探索的思考に移行する生成フレームワークである。
2つの入力画像が与えられた場合、ユーザ指定のテキストプロンプトに頼ることなく、入力間の遅延関係を明らかにする多様な視覚的コヒーレントな合成を生成する。
私たちはCLIP Sparse Autoencoderを用いて、CLIP潜伏空間の編集方向を抽出し、概念ペアを分離する。
言語への依存を取り除き,迅速かつ直感的な組換えを可能にすることにより,創造的作業の初期段階およびあいまいな段階における視覚的思考を支援する。
関連論文リスト
- VLM-Guided Adaptive Negative Prompting for Creative Generation [21.534474554320823]
創造的生成(Creative generation)とは、ユーザの意図を反映する新しい、驚き、価値あるサンプルを事前に想像できない形で合成することである。
本稿では,VLM-Guided Adaptive Negative-Promptingを提案する。
創造的ノベルティにおいて,計算オーバーヘッドの無視による一貫した向上を示す。
論文 参考訳(メタデータ) (2025-10-12T17:34:59Z) - ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation [49.805992099208595]
ThematicPlaneは,ユーザが高レベルのセマンティック概念をナビゲートし操作できるシステムである。
このインターフェースは、暗黙の創造意図とシステム制御のギャップを埋める。
論文 参考訳(メタデータ) (2025-08-08T06:57:14Z) - RePrompt: Reasoning-Augmented Reprompting for Text-to-Image Generation via Reinforcement Learning [88.14234949860105]
RePromptは、強化学習による迅速な強化プロセスに明示的な推論を導入する、新しいリプロンプトフレームワークである。
提案手法は,人手による注釈付きデータなしでエンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-05-23T06:44:26Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Piece it Together: Part-Based Concepting with IP-Priors [52.01640707131325]
ユーザが提供するビジュアルコンポーネントの一部集合をシームレスにコヒーレントな構成に統合する生成フレームワークを導入する。
提案手法は,IP-Adapter+から抽出した,強力で過小評価された表現空間に基づいている。
また、与えられたタスクに対するIP-Adapter+のプロンプトアテンデンスを大幅に改善するLoRAベースの微調整戦略を提案する。
論文 参考訳(メタデータ) (2025-03-13T13:46:10Z) - IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。
提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。
テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文 参考訳(メタデータ) (2025-02-19T18:49:31Z) - Concept Decomposition for Visual Exploration and Inspiration [53.06983340652571]
本稿では,視覚概念を階層木構造に符号化した異なる視覚的側面に分解する手法を提案する。
我々は、概念分解と生成のために、大きな視覚言語モデルとそのリッチな潜在空間を利用する。
論文 参考訳(メタデータ) (2023-05-29T16:56:56Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。