論文の概要: LaRender: Training-Free Occlusion Control in Image Generation via Latent Rendering
- arxiv url: http://arxiv.org/abs/2508.07647v1
- Date: Mon, 11 Aug 2025 05:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.963653
- Title: LaRender: Training-Free Occlusion Control in Image Generation via Latent Rendering
- Title(参考訳): LaRender: 遅延レンダリングによる画像生成における学習自由咬合制御
- Authors: Xiaohang Zhan, Dingming Liu,
- Abstract要約: 画像中の物体間の閉塞関係を正確に制御する学習自由な画像生成アルゴリズムを提案する。
本研究では,物体の透明度,質量密度,光強度など,様々な効果が得られることを示す。
- 参考スコア(独自算出の注目度): 10.476519949850118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel training-free image generation algorithm that precisely controls the occlusion relationships between objects in an image. Existing image generation methods typically rely on prompts to influence occlusion, which often lack precision. While layout-to-image methods provide control over object locations, they fail to address occlusion relationships explicitly. Given a pre-trained image diffusion model, our method leverages volume rendering principles to "render" the scene in latent space, guided by occlusion relationships and the estimated transmittance of objects. This approach does not require retraining or fine-tuning the image diffusion model, yet it enables accurate occlusion control due to its physics-grounded foundation. In extensive experiments, our method significantly outperforms existing approaches in terms of occlusion accuracy. Furthermore, we demonstrate that by adjusting the opacities of objects or concepts during rendering, our method can achieve a variety of effects, such as altering the transparency of objects, the density of mass (e.g., forests), the concentration of particles (e.g., rain, fog), the intensity of light, and the strength of lens effects, etc.
- Abstract(参考訳): 画像中の物体間の閉塞関係を正確に制御する学習自由な画像生成アルゴリズムを提案する。
既存の画像生成法は、しばしば精度に欠けるオクルージョンに影響を与えるプロンプトに依存している。
レイアウト・トゥ・イメージ方式はオブジェクトの位置を制御できるが、排他的関係を明示的に扱えない。
事前学習された画像拡散モデルにより,本手法は,物体の閉塞関係と推定透過率によって導かれる潜在空間のシーンを「レンダリング」するために,ボリュームレンダリングの原理を利用する。
このアプローチは画像拡散モデルの再訓練や微調整を必要としないが、物理基底による正確な閉塞制御を可能にする。
広範囲な実験において,本手法は咬合精度において既存手法よりも有意に優れていた。
さらに、レンダリング中の物体や概念の不透明度を調整することで、物体の透明度、質量密度(例えば森林)、粒子濃度(例えば、雨、霧)、光の強度、レンズ効果の強さなど、様々な効果が得られることを示した。
関連論文リスト
- BokehDiff: Neural Lens Blur with One-Step Diffusion [53.11429878683807]
ボケフディフ(BokehDiff)は、物理的に正確で視覚的に魅力的な結果が得られるレンズボウ描画法である。
提案手法では, 画像形成プロセスと整合する自己認識モジュールを物理に着想を得た。
付加雑音を導入することなく1ステップの推論方式に拡散モデルを適応させ,高品質で忠実な結果を得る。
論文 参考訳(メタデータ) (2025-07-24T03:23:19Z) - D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition [13.854486943187565]
本稿では,凍結拡散モデルを用いたパイプラインを提案する。
このような特徴は、物体を隠蔽する物体の視覚的特徴を幻覚させるのに役立つと仮定する。
提案手法を用いることで,部分的対象閉塞に対してより堅牢なモデルが得られることを示す。
論文 参考訳(メタデータ) (2025-04-08T21:05:29Z) - Materialist: Physically Based Editing Using Single-Image Inverse Rendering [47.85234717907478]
マテリアルスト(Materist)は、学習に基づくアプローチと物理的にベースとしたプログレッシブ・差別化可能なレンダリングを組み合わせる方法である。
我々のアプローチは、マテリアル編集、オブジェクト挿入、リライトなど、幅広いアプリケーションを可能にする。
実験は、合成および実世界のデータセット間で強力なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-01-07T11:52:01Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Unsupervised Learning of Depth and Depth-of-Field Effect from Natural
Images with Aperture Rendering Generative Adversarial Networks [15.546533383799309]
本稿では,GAN上にアパーチャレンダリングを実装したAR-GAN(Aperture rendering Generative Adversarial Network)を提案する。
実験では,花,鳥,顔画像などの各種データセットにおけるAR-GANの有効性を実証し,これらを他の3次元表現学習GANに組み込むことで可搬性を示し,浅部DoFレンダリングにおけるそれらの適用性を検証する。
論文 参考訳(メタデータ) (2021-06-24T14:15:50Z) - FakeMix Augmentation Improves Transparent Object Detection [24.540569928274984]
境界関係の不均衡問題を克服するために、FakeMixと呼ばれる新しいコンテンツ依存データ拡張法を提案する。
また,マルチスケールおよびクロスモダリティ機能を動的にキャプチャ可能な,asppの拡張版であるadaptiveasppも紹介する。
論文 参考訳(メタデータ) (2021-03-24T15:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。