論文の概要: ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet
- arxiv url: http://arxiv.org/abs/2312.03154v2
- Date: Mon, 12 Aug 2024 13:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 00:28:29.030521
- Title: ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet
- Title(参考訳): ViscoNet: ControlNet用のビジュアルコンディショニングとテキストコンディショニングのブリッジと調和
- Authors: Soon Yau Cheong, Armin Mustafa, Andrew Gilbert,
- Abstract要約: 本稿では,空間条件と視覚条件を同時に行う新しいワンブランチ・アダプタアーキテクチャであるViscoNetを紹介する。
本手法は,凍結したテキスト・トゥ・イメージ(T2I)のバックボーンの再生能力の維持に成功している。
- 参考スコア(独自算出の注目度): 13.378823377015086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces ViscoNet, a novel one-branch-adapter architecture for concurrent spatial and visual conditioning. Our lightweight model requires trainable parameters and dataset size multiple orders of magnitude smaller than the current state-of-the-art IP-Adapter. However, our method successfully preserves the generative power of the frozen text-to-image (T2I) backbone. Notably, it excels in addressing mode collapse, a pervasive issue previously overlooked. Our novel architecture demonstrates outstanding capabilities in achieving a harmonious visual-text balance, unlocking unparalleled versatility in various human image generation tasks, including pose re-targeting, virtual try-on, stylization, person re-identification, and textile transfer.Demo and code are available from project page https://soon-yau.github.io/visconet/ .
- Abstract(参考訳): 本稿では,空間条件と視覚条件を同時に行う新しいワンブランチ・アダプタアーキテクチャであるViscoNetを紹介する。
我々の軽量モデルでは、トレーニング可能なパラメータとデータセットサイズが現在の最先端IP-Adapterよりも桁違いに小さくなります。
しかし,本手法は,凍結したテキスト・ツー・イメージ(T2I)のバックボーンの再生力を維持できる。
特に、これまで見過ごされていた広範にわたる問題に対処するモードの崩壊が優れている。
我々の新しいアーキテクチャは、ポーズ再ターゲティング、仮想トライオン、スタイリゼーション、人物の再識別、織物の転送など、さまざまな人間の画像生成タスクにおいて、相反する視覚的テキストバランスを実現するための優れた能力を示します。
関連論文リスト
- EscherNet: A Generative Model for Scalable View Synthesis [51.27302796214867]
EscherNetはビュー合成のための多視点条件拡散モデルである。
単一のコンシューマグレードGPU上で、100以上の一貫性のあるターゲットビューを同時に生成することができる。
EscherNetはシングルイメージとマルチイメージの3D再構成を統一し、これらの多様なタスクを単一の凝集性フレームワークに統合する。
論文 参考訳(メタデータ) (2024-02-06T11:21:58Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image [45.34977005820166]
NVS-Adapterは、Text-to-Image(T2I)モデルのプラグインモジュールである。
T2Iモデルの一般化能力を完全に活用しながら、新しい視覚オブジェクトのマルチビューを合成する。
実験により,NVS-Adapterは幾何的に一貫した多視点を効果的に合成できることが示されている。
論文 参考訳(メタデータ) (2023-12-12T14:29:57Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - Using mixup as regularization and tuning hyper-parameters for ResNets [0.0]
アイデンティティマッピングに基づくアーキテクチャ ResNetsとDenseNetsは、イメージ分類タスクにおけるパスブレークの結果を約束している。
この作業はResNetsを再定義し、ミックスアップデータ拡張を正規化として使用し、ハイパーパラメータをチューニングすることで、ResNet50 citeresnetsを改善する。
論文 参考訳(メタデータ) (2021-11-23T02:33:24Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - ISTA-Net++: Flexible Deep Unfolding Network for Compressive Sensing [6.568452964568836]
本稿では,ISTA-Net++と呼ばれる,エンドツーエンドのフレキシブルなISTAアンフォールディングディープネットワークを提案する。
本モデルでは,1つのモデルを用いて,異なる比のCS問題,すなわちマルチ比のタスクを扱うことの適応性を享受する。
4つのデータセットに関する実験では、ISTA-Net++は定量的指標と視覚的品質の両方の観点から最先端の結果を達成することが示されています。
論文 参考訳(メタデータ) (2021-03-22T03:09:05Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - Anysize GAN: A solution to the image-warping problem [5.866114531330298]
本稿では,Deep Learningにおける共通問題を解決するために,GAN(General Adversarial Network)の新たなタイプを提案する。
我々は,既存の潜在ベクトルベースGAN構造に適用可能な新しいアーキテクチャを開発し,任意のサイズのオンザフライ画像を生成する。
提案手法は,特徴的関係を維持しつつ,空間的関係の保存と理解を行なわずに,異なる大きさの現実的な画像を生成することを実証する。
論文 参考訳(メタデータ) (2020-03-06T14:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。