論文の概要: Toward a Visual Concept Vocabulary for GAN Latent Space
- arxiv url: http://arxiv.org/abs/2110.04292v1
- Date: Fri, 8 Oct 2021 17:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 13:50:12.248013
- Title: Toward a Visual Concept Vocabulary for GAN Latent Space
- Title(参考訳): GANラテント空間のための視覚概念語彙を目指して
- Authors: Sarah Schwettmann, Evan Hernandez, David Bau, Samuel Klein, Jacob
Andreas, Antonio Torralba
- Abstract要約: 本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
- 参考スコア(独自算出の注目度): 74.12447538049537
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A large body of recent work has identified transformations in the latent
spaces of generative adversarial networks (GANs) that consistently and
interpretably transform generated images. But existing techniques for
identifying these transformations rely on either a fixed vocabulary of
pre-specified visual concepts, or on unsupervised disentanglement techniques
whose alignment with human judgments about perceptual salience is unknown. This
paper introduces a new method for building open-ended vocabularies of primitive
visual concepts represented in a GAN's latent space. Our approach is built from
three components: (1) automatic identification of perceptually salient
directions based on their layer selectivity; (2) human annotation of these
directions with free-form, compositional natural language descriptions; and (3)
decomposition of these annotations into a visual concept vocabulary, consisting
of distilled directions labeled with single words. Experiments show that
concepts learned with our approach are reliable and composable -- generalizing
across classes, contexts, and observers, and enabling fine-grained manipulation
of image style and content.
- Abstract(参考訳): 最近の多くの研究で、生成した画像を一貫して解釈可能に変換するgans(generative adversarial network)の潜在空間における変換が特定されている。
しかし、これらの変換を識別する既存の技術は、事前に特定された視覚概念の定型語彙に依存するか、あるいは知覚的サリエンスに関する人間の判断に一致しない教師なしの遠絡技術に依存する。
本稿では,ganの潜在空間で表現される原始視覚概念のオープン拡張語彙を構築する新しい手法を提案する。
提案手法は,(1) 層選択性に基づく知覚的に有意な方向の自動識別,(2) 自由形,構成的自然言語記述によるこれらの方向の人間のアノテーション,(3) 単一語でラベル付けされた蒸留方向からなる視覚概念語彙への分解,の3つの構成要素から成り立っている。
実験によると、このアプローチで学んだ概念は信頼性があり、構成可能で、クラス、コンテキスト、オブザーバーをまたいで一般化し、画像スタイルとコンテンツのきめ細かい操作を可能にする。
関連論文リスト
- Learning Pseudo-Labeler beyond Noun Concepts for Open-Vocabulary Object
Detection [25.719940401040205]
任意の概念の領域テキストアライメントをシンプルかつ効果的に学習する手法を提案する。
具体的には、任意の概念の擬似ラベル付けのための任意の画像とテキストのマッピング、Pseudo-Labeling for Arbitrary Concepts (PLAC) を学習することを目的としている。
提案手法は、名詞概念の標準OVODベンチマークにおける競合性能と、任意の概念の表現理解ベンチマークに対する大幅な改善を示す。
論文 参考訳(メタデータ) (2023-12-04T18:29:03Z) - CLiC: Concept Learning in Context [54.81654147248919]
本稿では,視覚概念学習の最近の進歩に基づく。
ソースイメージから視覚概念を取得し、その後ターゲットイメージ内のオブジェクトに適用する。
概念学習のローカライズには,マスク内の概念と周囲の画像領域の両方を含むソフトマスクを用いる。
論文 参考訳(メタデータ) (2023-11-28T01:33:18Z) - Improving Image Captioning via Predicting Structured Concepts [46.88858655641866]
本研究では,概念とその構造を予測するための構造的概念予測器を提案し,それをキャプションに統合する。
我々は、単語依存によって駆動される概念関係を記述するために、重み付きグラフ畳み込みネットワーク(W-GCN)を設計する。
提案手法は,概念間の潜在的な関係を捉え,異なる概念を識別的に学習することにより,画像キャプションの継承を容易にする。
論文 参考訳(メタデータ) (2023-11-14T15:01:58Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Concept Decomposition for Visual Exploration and Inspiration [53.06983340652571]
本稿では,視覚概念を階層木構造に符号化した異なる視覚的側面に分解する手法を提案する。
我々は、概念分解と生成のために、大きな視覚言語モデルとそのリッチな潜在空間を利用する。
論文 参考訳(メタデータ) (2023-05-29T16:56:56Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。