論文の概要: ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for
ControlNet
- arxiv url: http://arxiv.org/abs/2312.03154v1
- Date: Tue, 5 Dec 2023 21:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:39:09.947869
- Title: ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for
ControlNet
- Title(参考訳): ViscoNet: ControlNet用のビジュアルコンディショニングとテキストコンディショニングのブリッジと調和
- Authors: Soon Yau Cheong, Armin Mustafa, Andrew Gilbert
- Abstract要約: 本稿では、視覚的プロンプトによるテキスト・ツー・イメージ・ヒューマン・ジェネレーション・モデルを強化する新しい手法であるViscoNetを紹介する。
視覚特性や芸術的スタイルをテキストや画像のプロンプトで操作できる人間の画像生成におけるViscoNetの有効性を実証する。
- 参考スコア(独自算出の注目度): 15.036456718714067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces ViscoNet, a novel method that enhances text-to-image
human generation models with visual prompting. Unlike existing methods that
rely on lengthy text descriptions to control the image structure, ViscoNet
allows users to specify the visual appearance of the target object with a
reference image. ViscoNet disentangles the object's appearance from the image
background and injects it into a pre-trained latent diffusion model (LDM) model
via a ControlNet branch. This way, ViscoNet mitigates the style mode collapse
problem and enables precise and flexible visual control. We demonstrate the
effectiveness of ViscoNet on human image generation, where it can manipulate
visual attributes and artistic styles with text and image prompts. We also show
that ViscoNet can learn visual conditioning from small and specific object
domains while preserving the generative power of the LDM backbone.
- Abstract(参考訳): 本稿では,視覚プロンプトによるテキスト対画像生成モデルを強化する新しい手法である visconet を提案する。
画像構造を制御するための長いテキスト記述に依存する既存の方法とは異なり、ViscoNetはユーザーが対象のオブジェクトの視覚的外観を参照画像で指定できるようにする。
ViscoNetはオブジェクトの外観を画像背景から切り離し、ControlNetブランチを介して事前訓練された潜在拡散モデル(LDM)モデルに注入する。
このようにして、ViscoNetはスタイルモード崩壊問題を緩和し、正確で柔軟な視覚制御を可能にする。
視覚特性や芸術的スタイルをテキストや画像のプロンプトで操作できる人間の画像生成におけるViscoNetの有効性を実証する。
また、ViscoNetは、LDMバックボーンの生成力を保ちながら、小さくて特定のオブジェクトドメインから視覚条件を学習できることを示す。
関連論文リスト
- ControlNet-XS: Designing an Efficient and Effective Architecture for
Controlling Text-to-Image Diffusion Models [21.379896810560282]
一般的なアプローチは、Stable Diffusionのようなトレーニング済みの画像生成モデルと組み合わせて、ControlNetのような制御ネットワークを使用することである。
本研究では,制御ネットXSと呼ばれる新しい制御アーキテクチャを提案する。
ControlNetとは対照的に、私たちのモデルはパラメータのごく一部しか必要とせず、推論やトレーニング時間の約2倍の速度です。
論文 参考訳(メタデータ) (2023-12-11T17:58:06Z) - ScaleNet: An Unsupervised Representation Learning Method for Limited
Information [0.0]
ScaleNet という,シンプルで効率的な非教師なし表現学習手法を提案する。
ハリスコーナー情報のような特定の画像特徴は、回転予測タスクの効率において重要な役割を果たす。
限られたデータを持つScaleNetモデルから転送されたパラメータは、RotNetモデルと比較して、ImageNet分類タスクを約6%改善する。
論文 参考訳(メタデータ) (2023-10-03T19:13:43Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - How Do ConvNets Understand Image Intensity? [2.134451343223018]
我々は,ConvNetが可視化を用いた画像強度情報に依存していることを示す。
ConvNetは通常、画像の分類にエッジ/シェープ情報を利用する。
論文 参考訳(メタデータ) (2023-06-01T05:40:58Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。
我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文 参考訳(メタデータ) (2022-05-16T20:23:11Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - NetReAct: Interactive Learning for Network Summarization [60.18513812680714]
本論文では,テキストコーポラによる感覚生成のネットワーク可視化を支援する,新しいインタラクティブネットワーク要約アルゴリズムであるNetReActを提案する。
netreactが、他の非自明なベースラインよりも、隠れたパターンを明らかにする高品質な要約や視覚化の生成に成功していることを示す。
論文 参考訳(メタデータ) (2020-12-22T03:56:26Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。