論文の概要: Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback
- arxiv url: http://arxiv.org/abs/2507.02321v1
- Date: Thu, 03 Jul 2025 05:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.682238
- Title: Heeding the Inner Voice: Aligning ControlNet Training via Intermediate Features Feedback
- Title(参考訳): 内声のヒーディング:中間機能フィードバックによる制御ネットトレーニングの調整
- Authors: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov,
- Abstract要約: ControlNetは補助的なコンディショニングモジュールを導入することでこの問題に対処する。
ControlNet++は、最後のdenoisingステップにのみ適用されるサイクル一貫性損失を通じて、アライメントをさらに洗練する。
本研究では,すべての拡散ステップに空間的整合性を持たせるためのトレーニング戦略であるInnerControlを提案する。
- 参考スコア(独自算出の注目度): 1.7749342709605145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant progress in text-to-image diffusion models, achieving precise spatial control over generated outputs remains challenging. ControlNet addresses this by introducing an auxiliary conditioning module, while ControlNet++ further refines alignment through a cycle consistency loss applied only to the final denoising steps. However, this approach neglects intermediate generation stages, limiting its effectiveness. We propose InnerControl, a training strategy that enforces spatial consistency across all diffusion steps. Our method trains lightweight convolutional probes to reconstruct input control signals (e.g., edges, depth) from intermediate UNet features at every denoising step. These probes efficiently extract signals even from highly noisy latents, enabling pseudo ground truth controls for training. By minimizing the discrepancy between predicted and target conditions throughout the entire diffusion process, our alignment loss improves both control fidelity and generation quality. Combined with established techniques like ControlNet++, InnerControl achieves state-of-the-art performance across diverse conditioning methods (e.g., edges, depth).
- Abstract(参考訳): テキスト・画像拡散モデルの大幅な進歩にもかかわらず、生成した出力に対する正確な空間制御を実現することは依然として困難である。
ControlNet++は、最後のdenoisingステップにのみ適用されるサイクル一貫性損失を通じて、アライメントをさらに洗練する。
しかし、このアプローチは中間生成段階を無視し、その有効性を制限する。
本研究では,すべての拡散ステップに空間的整合性を持たせるためのトレーニング戦略であるInnerControlを提案する。
提案手法は, 入力制御信号(例えば, エッジ, 深さ)をデノイングステップ毎に中間UNet特徴から再構成するために, 軽量な畳み込みプローブを訓練する。
これらのプローブは、非常にノイズの多い潜伏剤からでも効率的に信号を抽出し、トレーニングのための擬似基底真理制御を可能にする。
拡散過程全体を通して予測条件と目標条件の相違を最小化することにより、アライメント損失は制御忠実度と生成品質の両方を改善する。
ControlNet++のような確立したテクニックと組み合わせて、InnerControlはさまざまな条件付けメソッド(例えば、エッジ、深さ)で最先端のパフォーマンスを実現する。
関連論文リスト
- Minimal Impact ControlNet: Advancing Multi-ControlNet Integration [35.40147040893738]
現在のControlNetトレーニングでは、各コントロールは画像のすべての領域に影響を与えるように設計されている。
無声制御信号は、関連する領域におけるテクスチャの発生を抑制することができる。
この問題に対処するために,ミニマル・インパクト・コントロールネットを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:41:43Z) - PixelPonder: Dynamic Patch Adaptation for Enhanced Multi-Conditional Text-to-Image Generation [24.964136963713102]
単一制御構造下で複数の視覚条件を効果的に制御できる新しい統一制御フレームワークであるPixelPonderを提案する。
具体的には、サブリージョンレベルで空間的に関連する制御信号を動的に優先順位付けするパッチレベル適応条件選択機構を設計する。
大規模な実験では、PixelPonderがさまざまなベンチマークデータセットにまたがる従来のメソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-03-09T16:27:02Z) - CoDe: Blockwise Control for Denoising Diffusion Models [9.235074675079767]
下流タスクへの拡散モデルをアライメントするには、しばしば推論時に新しいモデルや勾配に基づくガイダンスを微調整する必要がある。
本研究では,制御デノイング(CoDe)と呼ばれる単純な推論時間勾配自由誘導手法について検討する。
CoDeは中間復調段階に適用されるブロックワイズサンプリング手法であり、下流の報酬とアライメントすることができる。
論文 参考訳(メタデータ) (2025-02-03T00:23:04Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Unsupervised learning based end-to-end delayless generative fixed-filter
active noise control [22.809445468752262]
遅延のないノイズ制御は、我々の初期の生成固定フィルタアクティブノイズ制御(GFANC)フレームワークによって実現されている。
コプロセッサの1次元畳み込みニューラルネットワーク(1D CNN)は、ラベル付きノイズデータセットを使用した初期トレーニングを必要とする。
本稿では,1次元CNNトレーニングプロセスを簡素化し,その実用性を高めるために,教師なしGFANCアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-08T06:14:12Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。