論文の概要: LGTM: Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation
- arxiv url: http://arxiv.org/abs/2603.24086v1
- Date: Wed, 25 Mar 2026 08:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.216411
- Title: LGTM: Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation
- Title(参考訳): LGTM:初期ノイズマニピュレーションによる自由光誘導型テキスト画像拡散モデル
- Authors: Ryugo Morita, Stanislav Frolov, Brian Bernhard Moser, Ko Watanabe, Riku Takahashi, Andreas Dengel,
- Abstract要約: Initial Noise Manipulation を用いた学習自由光誘導型テキスト・画像拡散モデルを提案する。
拡散過程の初期潜音を操り、テキストプロンプトとユーザが特定した光方向で画像生成を誘導する。
画像の品質とテキストアライメントを保ちながら、ライトの一貫性において、プロンプトベースのベースラインを超える。
- 参考スコア(独自算出の注目度): 7.432606687404551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated high-quality performance in conditional text-to-image generation, particularly with structural cues such as edges, layouts, and depth. However, lighting conditions have received limited attention and remain difficult to control within the generative process. Existing methods handle lighting through a two-stage pipeline that relights images after generation, which is inefficient. Moreover, they rely on fine-tuning with large datasets and heavy computation, limiting their adaptability to new models and tasks. To address this, we propose a novel Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation (LGTM), which manipulates the initial latent noise of the diffusion process to guide image generation with text prompts and user-specified light directions. Through a channel-wise analysis of the latent space, we find that selectively manipulating latent channels enables fine-grained lighting control without fine-tuning or modifying the pre-trained model. Extensive experiments show that our method surpasses prompt-based baselines in lighting consistency, while preserving image quality and text alignment. This approach introduces new possibilities for dynamic, user-guided light control. Furthermore, it integrates seamlessly with models like ControlNet, demonstrating adaptability across diverse scenarios.
- Abstract(参考訳): 拡散モデルは条件付きテキスト・画像生成において、特にエッジ、レイアウト、深さなどの構造的手がかりで高品質な性能を示す。
しかし、照明条件は注意を引いており、生成過程において制御が困難である。
既存の方法は、生成後に画像をリライトする2段階のパイプラインを通して照明を処理するが、これは非効率である。
さらに、大規模なデータセットと重い計算による微調整に依存しており、新しいモデルやタスクへの適応性が制限されている。
そこで本研究では,初期ノイズマニピュレーション(LGTM)による学習自由光誘導型テキスト-画像拡散モデルを提案する。
潜時空間のチャネルワイズ解析により,潜時チャネルを選択的に操作することで,事前学習したモデルの微調整や修正を行なわずに微粒化照明制御が可能となることがわかった。
本手法は,画像品質とテキストアライメントを保ちながら,光の整合性において即時ベースラインを超えていることを示す。
このアプローチは、動的なユーザ誘導光制御の新しい可能性をもたらす。
さらに、ControlNetのようなモデルとシームレスに統合し、さまざまなシナリオにまたがって適応性を示す。
関連論文リスト
- Diffusion-Based Low-Light Image Enhancement with Color and Luminance Priors [13.688097246812042]
低照度画像は、しばしば低コントラスト、ノイズ、色歪みに悩まされ、視覚的品質を低下させ、下流の視覚タスクを損なう。
SCEM(Structured Control Embedding Module)を組み込んだ低照度画像強調のための新しい条件拡散フレームワークを提案する。
SCEMは低照度画像を4つの情報成分に分解する。
論文 参考訳(メタデータ) (2026-02-27T22:15:27Z) - LightQANet: Quantized and Adaptive Feature Learning for Low-Light Image Enhancement [65.06462316546806]
低照度画像強調は、高品質な色とテクスチャを維持しながら照明を改善することを目的としている。
既存の手法では、低照度条件下での画素レベルの情報劣化により、信頼性の高い特徴表現の抽出に失敗することが多い。
低照度向上のための量子化・適応型特徴学習を実現する新しいフレームワークLightQANetを提案する。
論文 参考訳(メタデータ) (2025-10-16T14:54:42Z) - PractiLight: Practical Light Control Using Foundational Diffusion Models [78.75949075070595]
PractiLightは、生成された画像における光制御の実践的なアプローチである。
私たちの重要な洞察は、画像内のライティング関係は、自己注意層におけるトークンの相互作用と本質的に類似しているということです。
我々は,パラメータとデータ効率が証明された品質と制御の観点から,最先端の性能を実証する。
論文 参考訳(メタデータ) (2025-09-01T23:38:40Z) - SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement [58.79901582809091]
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
正確な照明復元を可能にする空間適応照明誘導変圧器フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:38:56Z) - LightLab: Controlling Light Sources in Images with Diffusion Models [49.83835236202516]
画像中の光源を微細かつパラメトリックに制御する拡散法を提案する。
我々は、光の線形性を利用して、ターゲット光源または周囲照明の制御された光の変化を描写した画像対を合成する。
提案手法は, ユーザの好みに基づいて, 従来の方法よりも優れた光編集結果が得られることを示す。
論文 参考訳(メタデータ) (2025-05-14T17:57:27Z) - LumiNet: Latent Intrinsics Meets Diffusion Models for Indoor Scene Relighting [26.40653597095593]
ソースイメージとターゲットのライティングイメージが与えられた後、LumiNetはターゲットのライティングをキャプチャするソースシーンの依存バージョンを合成する。
LumiNetは2つの異なる画像から遅延表現を処理します。
論文 参考訳(メタデータ) (2024-11-29T18:59:11Z) - DifFRelight: Diffusion-Based Facial Performance Relighting [12.909429637057343]
拡散に基づく画像から画像への変換を用いた,自由視点顔の表情のリライティングのための新しいフレームワークを提案する。
我々は、正確な照明制御のための拡散モデルを訓練し、フラットライト入力からの顔画像の高忠実度化を可能にする。
このモデルは、目の反射、地表面散乱、自影、半透明といった複雑な照明効果を正確に再現する。
論文 参考訳(メタデータ) (2024-10-10T17:56:44Z) - Dimma: Semi-supervised Low Light Image Enhancement with Adaptive Dimming [0.728258471592763]
自然色を維持しながら低照度画像を強調することは、カメラ処理のバリエーションによって難しい問題である。
そこで我々はDimmaを提案する。Dimmaは、画像対の小さなセットを利用して、任意のカメラと整合する半教師付きアプローチである。
そこで我々は,照明の違いに基づいて,シーンの歪み色を生成する畳み込み混合密度ネットワークを導入することで実現した。
論文 参考訳(メタデータ) (2023-10-14T17:59:46Z) - Unsupervised Low-light Image Enhancement with Decoupled Networks [103.74355338972123]
我々は、実世界の低照度画像を教師なしで拡張する2段階のGANベースのフレームワークを学習する。
提案手法は,照度向上と雑音低減の両面から,最先端の教師なし画像強調法より優れる。
論文 参考訳(メタデータ) (2020-05-06T13:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。