論文の概要: SHIFT: Steering Hidden Intermediates in Flow Transformers
- arxiv url: http://arxiv.org/abs/2604.09213v1
- Date: Fri, 10 Apr 2026 11:07:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.83193
- Title: SHIFT: Steering Hidden Intermediates in Flow Transformers
- Title(参考訳): ShiFT:フロートランスの中間体をステアリングする
- Authors: Nina Konovalova, Andrey Kuznetsov, Aibek Alanov,
- Abstract要約: ShiFTは、DiT拡散モデルにおける概念除去のフレームワークである。
選択したレイヤやタイムステップに動的に適用されたステアリングベクトルを学び、望ましくない視覚概念を抑える。
我々は、ShiFTが、時間を要する再トレーニングなしに、様々なプロンプトやターゲットに対して、DiT生成を効果的かつ柔軟に制御できることを実証した。
- 参考スコア(独自算出の注目度): 11.178408502429697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have become leading approaches for high-fidelity image generation. Recent DiT-based diffusion models, in particular, achieve strong prompt adherence while producing high-quality samples. We propose SHIFT, a simple but effective and lightweight framework for concept removal in DiT diffusion models via targeted manipulation of intermediate activations at inference time, inspired by activation steering in large language models. SHIFT learns steering vectors that are dynamically applied to selected layers and timesteps to suppress unwanted visual concepts while preserving the prompt's remaining content and overall image quality. Beyond suppression, the same mechanism can shift generations into a desired \emph{style domain} or bias samples toward adding or changing target objects. We demonstrate that SHIFT provides effective and flexible control over DiT generation across diverse prompts and targets without time-consuming retraining.
- Abstract(参考訳): 拡散モデルは高忠実度画像生成における主要なアプローチとなっている。
最近のDiTベースの拡散モデルでは、特に高品質な試料を生産しながら強いプロンプト密着性が達成されている。
大規模言語モデルにおけるアクティベーションステアリングにインスパイアされた中間活性化のターゲット操作を通じて、DiT拡散モデルの概念除去のためのシンプルで効果的で軽量なフレームワーク ShiFT を提案する。
ShiFTは、選択したレイヤやタイムステップに動的に適用されたステアリングベクトルを学習し、プロンプトの残りの内容と全体的な画質を保ちながら、望ましくない視覚概念を抑える。
抑圧の他に、同じメカニズムは世代を所望の \emph{style domain} やバイアスサンプルに移行して、ターゲットオブジェクトの追加や変更を行うことができる。
我々は、ShiFTが、時間を要する再トレーニングなしに、様々なプロンプトやターゲットに対して、DiT生成を効果的かつ柔軟に制御できることを実証した。
関連論文リスト
- Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers [31.67315012315044]
我々は,多層LLM隠蔽状態を体系的に整理する軽量ゲートを備えた統一正規化凸核融合フレームワークを提案する。
実験は、より優れた条件付け戦略としてDepth-wise Semantic Routingを確立する。
純粋に時間的な融合は、視覚発生の忠実度をパラドックス的に低下させる可能性がある。
論文 参考訳(メタデータ) (2026-02-03T13:30:13Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - Generative Pre-trained Autoregressive Diffusion Transformer [74.25668109048418]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [41.909091496502704]
拡散トランスフォーマー(Diffusion Transformers, DiTs)は、強力なが未探索な生成モデルのクラスである。
解釈可能な拡散変換を行うためのTIDE-Temporal-aware sparse Autoencodersを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:35:51Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。