Fugu-MT 論文翻訳(概要): ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet

論文の概要: ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet

arxiv url: http://arxiv.org/abs/2312.03154v1
Date: Tue, 5 Dec 2023 21:41:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 16:39:09.947869
Title: ViscoNet: Bridging and Harmonizing Visual and Textual Conditioning for ControlNet
Title（参考訳）: ViscoNet: ControlNet用のビジュアルコンディショニングとテキストコンディショニングのブリッジと調和
Authors: Soon Yau Cheong, Armin Mustafa, Andrew Gilbert
Abstract要約: 本稿では、視覚的プロンプトによるテキスト・ツー・イメージ・ヒューマン・ジェネレーション・モデルを強化する新しい手法であるViscoNetを紹介する。視覚特性や芸術的スタイルをテキストや画像のプロンプトで操作できる人間の画像生成におけるViscoNetの有効性を実証する。
参考スコア（独自算出の注目度）: 15.036456718714067
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces ViscoNet, a novel method that enhances text-to-image human generation models with visual prompting. Unlike existing methods that rely on lengthy text descriptions to control the image structure, ViscoNet allows users to specify the visual appearance of the target object with a reference image. ViscoNet disentangles the object's appearance from the image background and injects it into a pre-trained latent diffusion model (LDM) model via a ControlNet branch. This way, ViscoNet mitigates the style mode collapse problem and enables precise and flexible visual control. We demonstrate the effectiveness of ViscoNet on human image generation, where it can manipulate visual attributes and artistic styles with text and image prompts. We also show that ViscoNet can learn visual conditioning from small and specific object domains while preserving the generative power of the LDM backbone.
Abstract（参考訳）: 本稿では,視覚プロンプトによるテキスト対画像生成モデルを強化する新しい手法である visconet を提案する。画像構造を制御するための長いテキスト記述に依存する既存の方法とは異なり、ViscoNetはユーザーが対象のオブジェクトの視覚的外観を参照画像で指定できるようにする。 ViscoNetはオブジェクトの外観を画像背景から切り離し、ControlNetブランチを介して事前訓練された潜在拡散モデル(LDM)モデルに注入する。このようにして、ViscoNetはスタイルモード崩壊問題を緩和し、正確で柔軟な視覚制御を可能にする。視覚特性や芸術的スタイルをテキストや画像のプロンプトで操作できる人間の画像生成におけるViscoNetの有効性を実証する。また、ViscoNetは、LDMバックボーンの生成力を保ちながら、小さくて特定のオブジェクトドメインから視覚条件を学習できることを示す。

関連論文リスト

Visualized Text-to-Image Retrieval [55.178938325324864]
テキスト・トゥ・イメージ(T2I)検索のための新しいパラダイムである Visualize-then-Retrieve (VisRet) を提案する。 VisRetはまず、T2I生成を介して画像モダリティにテキストクエリを投影する。その後、画像モダリティ内で検索を行い、微妙な視覚空間的特徴を認識するために、クロスモーダルレトリバーの弱点を回避します。
論文参考訳（メタデータ） (2025-05-26T17:59:33Z)
EscherNet: A Generative Model for Scalable View Synthesis [51.27302796214867]
EscherNetはビュー合成のための多視点条件拡散モデルである。単一のコンシューマグレードGPU上で、100以上の一貫性のあるターゲットビューを同時に生成することができる。 EscherNetはシングルイメージとマルチイメージの3D再構成を統一し、これらの多様なタスクを単一の凝集性フレームワークに統合する。
論文参考訳（メタデータ） (2024-02-06T11:21:58Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
NVS-Adapter: Plug-and-Play Novel View Synthesis from a Single Image [45.34977005820166]
NVS-Adapterは、Text-to-Image(T2I)モデルのプラグインモジュールである。 T2Iモデルの一般化能力を完全に活用しながら、新しい視覚オブジェクトのマルチビューを合成する。実験により,NVS-Adapterは幾何的に一貫した多視点を効果的に合成できることが示されている。
論文参考訳（メタデータ） (2023-12-12T14:29:57Z)
Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。 Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:58Z)
Using mixup as regularization and tuning hyper-parameters for ResNets [0.0]
アイデンティティマッピングに基づくアーキテクチャ ResNetsとDenseNetsは、イメージ分類タスクにおけるパスブレークの結果を約束している。この作業はResNetsを再定義し、ミックスアップデータ拡張を正規化として使用し、ハイパーパラメータをチューニングすることで、ResNet50 citeresnetsを改善する。
論文参考訳（メタデータ） (2021-11-23T02:33:24Z)
Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文参考訳（メタデータ） (2021-03-29T06:23:20Z)
ISTA-Net++: Flexible Deep Unfolding Network for Compressive Sensing [6.568452964568836]
本稿では,ISTA-Net++と呼ばれる,エンドツーエンドのフレキシブルなISTAアンフォールディングディープネットワークを提案する。本モデルでは,1つのモデルを用いて,異なる比のCS問題,すなわちマルチ比のタスクを扱うことの適応性を享受する。 4つのデータセットに関する実験では、ISTA-Net++は定量的指標と視覚的品質の両方の観点から最先端の結果を達成することが示されています。
論文参考訳（メタデータ） (2021-03-22T03:09:05Z)
Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。 R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文参考訳（メタデータ） (2020-07-21T14:59:59Z)
BiO-Net: Learning Recurrent Bi-directional Connections for Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文参考訳（メタデータ） (2020-07-01T05:07:49Z)
Anysize GAN: A solution to the image-warping problem [5.866114531330298]
本稿では,Deep Learningにおける共通問題を解決するために,GAN(General Adversarial Network)の新たなタイプを提案する。我々は,既存の潜在ベクトルベースGAN構造に適用可能な新しいアーキテクチャを開発し,任意のサイズのオンザフライ画像を生成する。提案手法は,特徴的関係を維持しつつ,空間的関係の保存と理解を行なわずに,異なる大きさの現実的な画像を生成することを実証する。
論文参考訳（メタデータ） (2020-03-06T14:18:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。