論文の概要: Toward a Visual Concept Vocabulary for GAN Latent Space
- arxiv url: http://arxiv.org/abs/2110.04292v1
- Date: Fri, 8 Oct 2021 17:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 13:50:12.248013
- Title: Toward a Visual Concept Vocabulary for GAN Latent Space
- Title(参考訳): GANラテント空間のための視覚概念語彙を目指して
- Authors: Sarah Schwettmann, Evan Hernandez, David Bau, Samuel Klein, Jacob
Andreas, Antonio Torralba
- Abstract要約: 本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
- 参考スコア(独自算出の注目度): 74.12447538049537
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A large body of recent work has identified transformations in the latent
spaces of generative adversarial networks (GANs) that consistently and
interpretably transform generated images. But existing techniques for
identifying these transformations rely on either a fixed vocabulary of
pre-specified visual concepts, or on unsupervised disentanglement techniques
whose alignment with human judgments about perceptual salience is unknown. This
paper introduces a new method for building open-ended vocabularies of primitive
visual concepts represented in a GAN's latent space. Our approach is built from
three components: (1) automatic identification of perceptually salient
directions based on their layer selectivity; (2) human annotation of these
directions with free-form, compositional natural language descriptions; and (3)
decomposition of these annotations into a visual concept vocabulary, consisting
of distilled directions labeled with single words. Experiments show that
concepts learned with our approach are reliable and composable -- generalizing
across classes, contexts, and observers, and enabling fine-grained manipulation
of image style and content.
- Abstract(参考訳): 最近の多くの研究で、生成した画像を一貫して解釈可能に変換するgans(generative adversarial network)の潜在空間における変換が特定されている。
しかし、これらの変換を識別する既存の技術は、事前に特定された視覚概念の定型語彙に依存するか、あるいは知覚的サリエンスに関する人間の判断に一致しない教師なしの遠絡技術に依存する。
本稿では,ganの潜在空間で表現される原始視覚概念のオープン拡張語彙を構築する新しい手法を提案する。
提案手法は,(1) 層選択性に基づく知覚的に有意な方向の自動識別,(2) 自由形,構成的自然言語記述によるこれらの方向の人間のアノテーション,(3) 単一語でラベル付けされた蒸留方向からなる視覚概念語彙への分解,の3つの構成要素から成り立っている。
実験によると、このアプローチで学んだ概念は信頼性があり、構成可能で、クラス、コンテキスト、オブザーバーをまたいで一般化し、画像スタイルとコンテンツのきめ細かい操作を可能にする。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - Learning Pseudo-Labeler beyond Noun Concepts for Open-Vocabulary Object
Detection [25.719940401040205]
任意の概念の領域テキストアライメントをシンプルかつ効果的に学習する手法を提案する。
具体的には、任意の概念の擬似ラベル付けのための任意の画像とテキストのマッピング、Pseudo-Labeling for Arbitrary Concepts (PLAC) を学習することを目的としている。
提案手法は、名詞概念の標準OVODベンチマークにおける競合性能と、任意の概念の表現理解ベンチマークに対する大幅な改善を示す。
論文 参考訳(メタデータ) (2023-12-04T18:29:03Z) - Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models [60.80960965051388]
形容詞と動詞は名詞で絡み合っている(目的語)
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
レゴで作られたコンセプトは、ベースラインと比較して70%以上好まれていた。
論文 参考訳(メタデータ) (2023-11-23T07:33:38Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Concept Decomposition for Visual Exploration and Inspiration [53.06983340652571]
本稿では,視覚概念を階層木構造に符号化した異なる視覚的側面に分解する手法を提案する。
我々は、概念分解と生成のために、大きな視覚言語モデルとそのリッチな潜在空間を利用する。
論文 参考訳(メタデータ) (2023-05-29T16:56:56Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。