論文の概要: DealMaTe: Multi-Dimensional Material Transfer via Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2605.15681v1
- Date: Fri, 15 May 2026 07:06:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.203784
- Title: DealMaTe: Multi-Dimensional Material Transfer via Diffusion Transformer
- Title(参考訳): DealMaTe:拡散変圧器による多次元物質移動
- Authors: Nisha Huang, Yizhou Lin, Jie Guo, Xiu Li, Tong-Yee Lee, Zitong Yu,
- Abstract要約: DealMaTeは、テキストガイダンスと参照ネットワークを排除する拡散フレームワークである。
DealMaTeは任意の入力材料の下で顕著な高忠実度物質移動を実現する。
- 参考スコア(独自算出の注目度): 45.232470509013815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion-based material transfer methods rely on image fine-tuning or complex architectures with auxiliary networks but face challenges such as text dependency, additional computational costs, and feature misalignment. To address these limitations, we propose \textbf{DealMaTe}, using \underline{\textbf{de}}pth, norm\underline{\textbf{a}}l, and \underline{\textbf{l}}ighting images for \underline{\textbf{ma}}terial \underline{\textbf{t}}ransf\underline{\textbf{e}}r. DealMaTe is a simplified diffusion framework that eliminates text guidance and reference networks. We design a lightweight 3D information injection method, Multi-Dim 3D Shader LoRA, which, without modifying the base model weights, enables compatible control conditions and achieves harmonious and stable results. Additionally, we optimize the attention mechanism with Shader Causal Mutual Attention and key-value (KV) caching to reduce inference latency caused by multiple conditions, improve computational efficiency, and achieve high-quality material transfer results with low architectural complexity. Extensive experiments covering a wide variety of objects and lighting conditions consistently demonstrate that DealMaTe achieves remarkable high-fidelity material transfer under arbitrary input materials. The code is available at https://github.com/haha-lisa/DealMaTe.
- Abstract(参考訳): 近年,拡散型物質移動法は画像の微調整や補助的ネットワークによる複雑なアーキテクチャに依存しているが,テキスト依存や計算コストの増大,特徴の誤調整といった課題に直面している。
これらの制限に対処するため、 \underline{\textbf{de}}pth, norm\underline{\textbf{a}}l, \underline{\textbf{l}}ighting image for \underline{\textbf{ma}}terial \underline{\textbf{t}}ransf\underline{\textbf{e}}rを用いて、 \textbf{DealMaTe}を提案する。
DealMaTeは、テキストのガイダンスと参照ネットワークを排除する単純化された拡散フレームワークである。
基本モデルの重みを変更しない軽量な3次元情報注入方式であるMulti-Dim 3D Shader LoRAを設計し、互換性のある制御条件を実現し、調和と安定した結果を得る。
さらに,Shader Causal Mutual Attention and Key-value(KV)キャッシングによるアテンション機構を最適化し,複数の条件による推論遅延を低減し,計算効率を向上し,アーキテクチャの複雑さを低減した高品質な物質移動結果を実現する。
様々な物体や照明条件を包含する広範囲な実験は、任意の入力材料の下で、DealMaTeが顕著な高忠実性物質移動を達成することを一貫して証明している。
コードはhttps://github.com/haha-lisa/DealMaTeで入手できる。
関連論文リスト
- MaTe: Images Are All You Need for Material Transfer via Diffusion Transformer [21.547583825573255]
MaTeは、テキストのガイダンスと参照ネットワークを排除した、合理化された拡散フレームワークである。
トークンレベルで入力画像を統合し、共有潜在空間におけるマルチモーダルアテンションによる統一処理を可能にする。
視覚的品質と効率の両面で最先端の手法より優れており、正確な細かなアライメントを保っている。
論文 参考訳(メタデータ) (2026-05-15T06:31:41Z) - Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers [79.94246924019984]
マルチモーダル拡散変換器 (MM-DiT) はテキスト駆動型視覚生成において顕著な進歩を遂げている。
マルチモーダルインタラクションを動的に再バランスするパラメータ効率向上手法である textbfTemperature-Adjusted Cross-modal Attention (TACA) を提案する。
本研究は,テキスト・画像拡散モデルにおける意味的忠実度向上における相互注意のバランスの重要性を強調した。
論文 参考訳(メタデータ) (2025-06-09T17:54:04Z) - Magnet: We Never Know How Text-to-Image Diffusion Models Work, Until We Learn How Vision-Language Models Function [13.588643982359413]
属性理解におけるCLIPテキストエンコーダの限界を批判的に検討し,それが拡散モデルに与える影響について検討する。
属性結合問題に対処するための新しいトレーニング不要アプローチである textbf magnet を提案する。
論文 参考訳(メタデータ) (2024-09-30T05:36:24Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。