論文の概要: JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2505.00482v1
- Date: Thu, 01 May 2025 12:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.297169
- Title: JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers
- Title(参考訳): JointDiT:拡散変換器を用いたRGB-Depth継手モデリングの強化
- Authors: Kwon Byung-Ki, Qi Dai, Lee Hyoseok, Chong Luo, Tae-Hyun Oh,
- Abstract要約: RGBと深さの関節分布をモデル化した拡散変圧器であるJointDiTを提案する。
JointDiTは高忠実度画像を生成するが、幾何学的に可視で正確な深度マップも生成する。
- 参考スコア(独自算出の注目度): 41.813813511896484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present JointDiT, a diffusion transformer that models the joint distribution of RGB and depth. By leveraging the architectural benefit and outstanding image prior of the state-of-the-art diffusion transformer, JointDiT not only generates high-fidelity images but also produces geometrically plausible and accurate depth maps. This solid joint distribution modeling is achieved through two simple yet effective techniques that we propose, i.e., adaptive scheduling weights, which depend on the noise levels of each modality, and the unbalanced timestep sampling strategy. With these techniques, we train our model across all noise levels for each modality, enabling JointDiT to naturally handle various combinatorial generation tasks, including joint generation, depth estimation, and depth-conditioned image generation by simply controlling the timestep of each branch. JointDiT demonstrates outstanding joint generation performance. Furthermore, it achieves comparable results in depth estimation and depth-conditioned image generation, suggesting that joint distribution modeling can serve as a replaceable alternative to conditional generation. The project page is available at https://byungki-k.github.io/JointDiT/.
- Abstract(参考訳): RGBと深さの関節分布をモデル化した拡散変圧器であるJointDiTを提案する。
最先端拡散変換器のアーキテクチャ上の利点と優れた画像を活用することで、JointDiTは高忠実度画像を生成するだけでなく、幾何学的に可視かつ正確な深度マップを生成する。
このソリッド・ジョイント・ディストリビューション・モデリングは,各モードの雑音レベルに依存する適応的スケジューリング重み付け(adaptive schedule weights)と,アンバランスなタイムステップサンプリング戦略(un balanced timestep sample strategy)という,シンプルかつ効果的な2つの手法によって実現される。
これらの手法を用いることで、各分岐の時間ステップをシンプルに制御することで、関節生成、深度推定、深度条件付き画像生成を含む様々な組合せ生成タスクをJointDiTが自然に処理できるようにする。
JointDiTは優れたジョイントジェネレーション性能を示す。
さらに、深度推定と深度条件付き画像生成に匹敵する結果を達成し、共同分布モデリングが条件生成の代替となることを示唆している。
プロジェクトページはhttps://byungki-k.github.io/JointDiT/で公開されている。
関連論文リスト
- A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models [0.0]
本稿では、拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデリングフレームワーク、Wavelet-Fourier-Diffusionを提案する。
ハイブリッド周波数に基づく表現は,大域的コヒーレンスと微妙なテクスチャ合成の制御をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-04-04T17:11:04Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Consistent Multimodal Generation via A Unified GAN Framework [36.08519541540843]
一つの生成モデルを用いて,RGB,深さ,表面正規化などのマルチモーダル画像を生成する方法について検討する。
我々のソリューションはStyleGAN3アーキテクチャ上に構築されており、合成ネットワークの最後の層に共有バックボーンとモダリティ固有の分岐がある。
スタンフォード2D3Dデータセットの実験では、RGB、深さ、正常な画像の現実的で一貫した生成を実証する。
論文 参考訳(メタデータ) (2023-07-04T01:33:20Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Controllable and Compositional Generation with Latent-Space Energy-Based
Models [60.87740144816278]
制御可能な生成は、現実世界のアプリケーションで深層生成モデルの採用を成功させる上で重要な要件の1つである。
本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。
エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-21T03:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。