論文の概要: FlexControl: Computation-Aware ControlNet with Differentiable Router for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2502.10451v2
- Date: Thu, 20 Feb 2025 13:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:24:38.705973
- Title: FlexControl: Computation-Aware ControlNet with Differentiable Router for Text-to-Image Generation
- Title(参考訳): FlexControl: テキスト・画像生成のための微分ルータを用いた計算対応制御ネット
- Authors: Zheng Fang, Lichuan Xiang, Xu Cai, Kaicheng Zhou, Hongkai Wen,
- Abstract要約: ControlNetは拡散ベースの生成モデルをガイドする強力な方法を提供する。
ほとんどの実装は、異なるタスクで予測不可能に変化するアプローチを制御するためのネットワークブロックを選択するためのアドホックに依存しています。
トレーニング中にすべての拡散ブロックをコピーし、トレーニング可能なゲーティング機構を使用するフレームワークであるFlexControlを提案する。
- 参考スコア(独自算出の注目度): 10.675687253961595
- License:
- Abstract: ControlNet offers a powerful way to guide diffusion-based generative models, yet most implementations rely on ad-hoc heuristics to choose which network blocks to control-an approach that varies unpredictably with different tasks. To address this gap, we propose FlexControl, a novel framework that copies all diffusion blocks during training and employs a trainable gating mechanism to dynamically select which blocks to activate at each denoising step. With introducing a computation-aware loss, we can encourage control blocks only to activate when it benefit the generation quality. By eliminating manual block selection, FlexControl enhances adaptability across diverse tasks and streamlines the design pipeline, with computation-aware training loss in an end-to-end training manner. Through comprehensive experiments on both UNet (e.g., SD1.5) and DiT (e.g., SD3.0), we show that our method outperforms existing ControlNet variants in certain key aspects of interest. As evidenced by both quantitative and qualitative evaluations, FlexControl preserves or enhances image fidelity while also reducing computational overhead by selectively activating the most relevant blocks. These results underscore the potential of a flexible, data-driven approach for controlled diffusion and open new avenues for efficient generative model design. The code will soon be available at https://github.com/Anonymousuuser/FlexControl.
- Abstract(参考訳): ControlNetは拡散ベースの生成モデルをガイドする強力な方法を提供するが、ほとんどの実装は、異なるタスクで予測不可能に変化するアプローチを制御するためにどのネットワークブロックを制御すべきかをアドホックなヒューリスティックに依存している。
このギャップを解決するためにFlexControlを提案する。これは、トレーニング中にすべての拡散ブロックをコピーする新しいフレームワークで、トレーニング可能なゲーティング機構を使用して、各デノナイジングステップでどのブロックをアクティベートするかを動的に選択する。
計算を意識した損失を導入することで、生成品質の恩恵を受ける場合にのみ、制御ブロックを起動するように促すことができます。
手作業によるブロックの選択をなくすことで、FlexControlはさまざまなタスクへの適応性を高め、エンドツーエンドのトレーニング方法で計算に意識したトレーニング損失を設計パイプラインを合理化します。
UNet (e g , SD1.5) と DiT (e g , SD3.0) の総合的な実験を通して、本手法が関心のある重要な側面において既存の ControlNet 変種より優れていることを示す。
定量評価と定性評価の両方で証明されているように、FlexControlは画像の忠実さを保ち、また最も関連するブロックを選択的に活性化することで計算オーバーヘッドを減らしている。
これらの結果は、制御拡散と効率的な生成モデル設計のための新しい道を開くためのフレキシブルでデータ駆動型アプローチの可能性を強調している。
コードは間もなくhttps://github.com/Anonymousuuser/FlexControl.comで公開される。
関連論文リスト
- Enhancing Privacy in ControlNet and Stable Diffusion via Split Learning [0.10878040851638002]
従来のフェデレーション学習と分割学習は,制御ネット学習には適さない。
本稿では,サーバが勾配を戻す必要をなくす分散学習構造を提案する。
本稿では,プライバシ保護のためのアクティベーション機能と,プライベートテキストのプロンプトがクライアントを去るのを防ぐ方法を提案する。
論文 参考訳(メタデータ) (2024-09-13T02:55:22Z) - ControlNeXt: Powerful and Efficient Control for Image and Video Generation [59.62289489036722]
制御可能画像と映像生成のための強力かつ効率的な制御NeXtを提案する。
まず、より単純で効率的なアーキテクチャを設計し、より重いブランチを最小限のコストで置き換えます。
トレーニングでは,学習可能なパラメータの最大90%を,代替案と比較して削減する。
論文 参考訳(メタデータ) (2024-08-12T11:41:18Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - FreeCtrl: Constructing Control Centers with Feedforward Layers for Learning-Free Controllable Text Generation [12.925771335213156]
制御可能なテキスト生成(CTG)は、特定の属性に忠実なテキストを作成しようとする。
選択したフィードフォワードニューラルネットワーク(FFN)ベクトルの重みを動的に調整する学習自由なアプローチであるFreeCtrlを提案する。
属性関連FFNベクトルの重みを同定し、適応的に調整することにより、FreeCtrlは生成されたコンテンツ中の属性キーワードの出力可能性を制御することができる。
論文 参考訳(メタデータ) (2024-06-14T03:18:28Z) - FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - DiffFacto: Controllable Part-Based 3D Point Cloud Generation with Cross
Diffusion [68.39543754708124]
DiffFactoは,部品レベルの制御で形状の分布を学習する新しい確率的生成モデルである。
実験により,複数の制御軸を持つ新しい形状を生成可能であることが示された。
最先端のパートレベルの生成品質を実現し、可塑性かつコヒーレントな形状を生成する。
論文 参考訳(メタデータ) (2023-05-03T06:38:35Z) - Federated Learning with Flexible Control [30.65854375019346]
フェデレートラーニング(FL)は、ユーザが収集したローカルデータから分散モデルトレーニングを可能にする。
制約のあるリソースと潜在的に高いダイナミクスを持つ分散システムでは、例えばモバイルエッジネットワークでは、FLの効率が重要な問題である。
フレキシブルに調整可能な複数のオプションを持つFLアルゴリズムであるFlexFLを提案する。
論文 参考訳(メタデータ) (2022-12-16T14:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。