論文の概要: Concept Decomposition for Visual Exploration and Inspiration
- arxiv url: http://arxiv.org/abs/2305.18203v2
- Date: Wed, 31 May 2023 16:04:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 11:59:09.073200
- Title: Concept Decomposition for Visual Exploration and Inspiration
- Title(参考訳): 視覚探索とインスピレーションのための概念分解
- Authors: Yael Vinker, Andrey Voynov, Daniel Cohen-Or, Ariel Shamir
- Abstract要約: 本稿では,視覚概念を階層木構造に符号化した異なる視覚的側面に分解する手法を提案する。
我々は、概念分解と生成のために、大きな視覚言語モデルとそのリッチな潜在空間を利用する。
- 参考スコア(独自算出の注目度): 53.06983340652571
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A creative idea is often born from transforming, combining, and modifying
ideas from existing visual examples capturing various concepts. However, one
cannot simply copy the concept as a whole, and inspiration is achieved by
examining certain aspects of the concept. Hence, it is often necessary to
separate a concept into different aspects to provide new perspectives. In this
paper, we propose a method to decompose a visual concept, represented as a set
of images, into different visual aspects encoded in a hierarchical tree
structure. We utilize large vision-language models and their rich latent space
for concept decomposition and generation. Each node in the tree represents a
sub-concept using a learned vector embedding injected into the latent space of
a pretrained text-to-image model. We use a set of regularizations to guide the
optimization of the embedding vectors encoded in the nodes to follow the
hierarchical structure of the tree. Our method allows to explore and discover
new concepts derived from the original one. The tree provides the possibility
of endless visual sampling at each node, allowing the user to explore the
hidden sub-concepts of the object of interest. The learned aspects in each node
can be combined within and across trees to create new visual ideas, and can be
used in natural language sentences to apply such aspects to new designs.
- Abstract(参考訳): 創造的なアイデアはしばしば、様々な概念を捉えた既存の視覚的例からアイデアを変換し、結合し、変更することから生まれます。
しかし、概念全体を単純にコピーすることはできず、概念の特定の側面を調べることでインスピレーションを得ることができる。
したがって、新しい視点を提供するために、概念を異なる側面に分けることがしばしば必要である。
本稿では,画像の集合として表現される視覚概念を,階層木構造に符号化された異なる視覚的側面に分解する手法を提案する。
大規模視覚言語モデルとそのリッチな潜在空間を概念分解と生成に活用する。
ツリーの各ノードは、事前訓練されたテキストから画像へのモデルの潜在空間に注入された学習ベクトルを埋め込み、サブ概念を表す。
我々は、ノードにエンコードされた埋め込みベクトルの最適化を導くために一連の正規化を使い、ツリーの階層構造に従う。
本手法により, 新たな概念を探索し, 発見することができる。
このツリーは、各ノードで無限に視覚的にサンプリングする可能性を提供し、ユーザーが関心のあるオブジェクトの隠れたサブ概念を探索できるようにする。
学習された各ノードのアスペクトはツリー内と木間を結合して新しい視覚的アイデアを作成でき、自然言語文でそのようなアスペクトを新しいデザインに適用することができる。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - Language-Informed Visual Concept Learning [22.911347501969857]
我々は概念エンコーダのセットを訓練し、言語インフォームドの概念軸のセットに関連する情報を符号化する。
次に、トレーニング済みのVisual Question Answering(VQA)モデルから得られたテキスト埋め込みの集合に埋め込みの概念を固定する。
推論時に、新しいテスト画像から様々な軸に沿った概念埋め込みを抽出し、それをリミックスして視覚概念の新規な構成で画像を生成する。
論文 参考訳(メタデータ) (2023-12-06T16:24:47Z) - Unsupervised Compositional Concepts Discovery with Text-to-Image
Generative Models [80.75258849913574]
本稿では、異なる画像の集合を考えると、各画像を表す生成概念を発見できるかという逆問題を考える。
本稿では,画像の集合から生成概念を抽出し,絵画やオブジェクト,キッチンシーンからの照明から異なる美術スタイルを分離し,イメージネット画像から得られる画像クラスを発見するための教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:02:15Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - SegDiscover: Visual Concept Discovery via Unsupervised Semantic
Segmentation [29.809900593362844]
SegDiscoverは、監視なしで複雑なシーンを持つデータセットから意味論的に意味のある視覚概念を発見する新しいフレームワークである。
提案手法は, 生画像から概念プリミティブを生成し, 自己教師付き事前学習エンコーダの潜在空間をクラスタリングし, ニューラルネットワークのスムーズ化により概念の洗練を図る。
論文 参考訳(メタデータ) (2022-04-22T20:44:42Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z) - Flexible Compositional Learning of Structured Visual Concepts [17.665938343060112]
本研究では,豊かな関係構造を持つ抽象的な視覚形態を用いて,異なるタイプの視覚構成を学習する方法について検討する。
さまざまなシナリオで、ほんの数例から意味のある構成の一般化ができることが分かりました。
構成性の特別な場合を調べる過去の研究とは異なり、我々の研究は、単一の計算アプローチが多くの異なる種類の構成一般化を考慮できることを示す。
論文 参考訳(メタデータ) (2021-05-20T15:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。