Fugu-MT 論文翻訳(概要): SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

論文の概要: SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing

arxiv url: http://arxiv.org/abs/2312.11392v1
Date: Mon, 18 Dec 2023 17:54:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 19:06:50.394191
Title: SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
Title（参考訳）: SCEdit: スキップ接続編集による効率よく制御可能な画像拡散生成
Authors: Zeyinzi Jiang, Chaojie Mao, Yulin Pan, Zhen Han, Jingfeng Zhang
Abstract要約: SCEdit と呼ばれる,Skip Connection を統合し編集する効率的な生成チューニングフレームワークを提案する。 SCEditはトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減する。テキスト・ツー・イメージ生成と制御可能な画像合成タスクの実験は、効率と性能の観点から、本手法の優位性を実証している。
参考スコア（独自算出の注目度）: 18.508719350413802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image diffusion models have been utilized in various tasks, such as text-to-image generation and controllable image synthesis. Recent research has introduced tuning methods that make subtle adjustments to the original models, yielding promising results in specific adaptations of foundational generative diffusion models. Rather than modifying the main backbone of the diffusion model, we delve into the role of skip connection in U-Net and reveal that hierarchical features aggregating long-distance information across encoder and decoder make a significant impact on the content and quality of image generation. Based on the observation, we propose an efficient generative tuning framework, dubbed SCEdit, which integrates and edits Skip Connection using a lightweight tuning module named SC-Tuner. Furthermore, the proposed framework allows for straightforward extension to controllable image synthesis by injecting different conditions with Controllable SC-Tuner, simplifying and unifying the network design for multi-condition inputs. Our SCEdit substantially reduces training parameters, memory usage, and computational expense due to its lightweight tuners, with backward propagation only passing to the decoder blocks. Extensive experiments conducted on text-to-image generation and controllable image synthesis tasks demonstrate the superiority of our method in terms of efficiency and performance. Project page: \url{https://scedit.github.io/}
Abstract（参考訳）: 画像拡散モデルは、テキストから画像への生成や制御可能な画像合成など、様々なタスクで利用されている。近年の研究では、原モデルに微調整を施し、基本生成拡散モデルの特定の適応に有望な結果をもたらすチューニング手法が導入された。拡散モデルの主要なバックボーンを変更するのではなく、u-netにおけるスキップ接続の役割を調べ、エンコーダとデコーダ間の長距離情報を集約する階層的特徴が画像生成のコンテンツと品質に大きな影響を与えていることを明らかにする。そこで本研究では,SC-Tuner という軽量チューニングモジュールを用いて,Skip Connection の統合と編集を行う,SCEdit と呼ばれる効率的な生成チューニングフレームワークを提案する。さらに,制御可能なsc-tunerで異なる条件を注入し,多条件入力のためのネットワーク設計を簡素化し統一することにより,制御可能な画像合成への簡易な拡張を実現する。このsceditは、その軽量チューナによるトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減し、デコーダブロックへの後方伝播のみを行う。テキスト対画像生成および制御可能な画像合成タスクに関する広範な実験により,提案手法の効率と性能の面での優位性が示された。プロジェクトページ: \url{https://scedit.github.io/}

関連論文リスト

Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文参考訳（メタデータ） (2025-07-22T05:25:38Z)
Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-23T20:34:43Z)
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。 UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文参考訳（メタデータ） (2024-12-25T15:19:02Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
Learned Image Transmission with Hierarchical Variational Autoencoder [28.084648666081943]
画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
論文参考訳（メタデータ） (2024-08-29T08:23:57Z)
Tuning-Free Visual Customization via View Iterative Self-Attention Control [10.657829781274254]
この課題に対処するために、textitView Iterative Self-Attention Control (VisCtrl)を提案する。 VisCtrlは、ターゲット画像中の別の被写体にユーザ特定被写体の外観と構造を注入する、トレーニング不要な方法である。提案手法は,数ステップで1つの参照画像のみを用いて一貫した,調和的な編集を行う。
論文参考訳（メタデータ） (2024-06-10T13:41:10Z)
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文参考訳（メタデータ） (2024-05-27T21:23:20Z)
Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文参考訳（メタデータ） (2023-12-17T21:49:59Z)
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文参考訳（メタデータ） (2023-05-24T04:51:04Z)
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (2023-02-16T06:28:29Z)
Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。 ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文参考訳（メタデータ） (2023-02-10T23:12:37Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。