論文の概要: HiMat: DiT-based Ultra-High Resolution SVBRDF Generation
- arxiv url: http://arxiv.org/abs/2508.07011v2
- Date: Tue, 12 Aug 2025 15:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.412158
- Title: HiMat: DiT-based Ultra-High Resolution SVBRDF Generation
- Title(参考訳): HiMat: DiTベースの超高分解能SVBRDF生成
- Authors: Zixiong Wang, Jian Yang, Yiwei Hu, Milos Hasan, Beibei Wang,
- Abstract要約: HiMatは、4K解像度のネイティブSVBRDFを生成することができるメモリと効率の拡散ベースのフレームワークである。
CrossStitchは、ローカライズされた操作を通じてマップ間の依存関係をキャプチャする軽量な畳み込みモジュールである。
- 参考スコア(独自算出の注目度): 24.129169323388446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating highly detailed SVBRDFs is essential for 3D content creation. The rise of high-resolution text-to-image generative models, based on diffusion transformers (DiT), suggests an opportunity to finetune them for this task. However, retargeting the models to produce multiple aligned SVBRDF maps instead of just RGB images, while achieving high efficiency and ensuring consistency across different maps, remains a challenge. In this paper, we introduce HiMat: a memory- and computation-efficient diffusion-based framework capable of generating native 4K-resolution SVBRDFs. A key challenge we address is maintaining consistency across different maps in a lightweight manner, without relying on training new VAEs or significantly altering the DiT backbone (which would damage its prior capabilities). To tackle this, we introduce the CrossStitch module, a lightweight convolutional module that captures inter-map dependencies through localized operations. Its weights are initialized such that the DiT backbone operation is unchanged before finetuning starts. HiMat enables generation with strong structural coherence and high-frequency details. Results with a large set of text prompts demonstrate the effectiveness of our approach for 4K SVBRDF generation. Further experiments suggest generalization to tasks such as intrinsic decomposition.
- Abstract(参考訳): 高精細なSVBRDFの作成は、3Dコンテンツ作成に不可欠である。
拡散変換器 (DiT) に基づく高解像度テキスト画像生成モデルの台頭は, それらを微調整する機会を示唆している。
しかし、RGB画像の代わりに複数のSVBRDFマップを生成するためにモデルを再ターゲティングする一方で、高効率を実現し、異なるマップ間で一貫性を確保することは、依然として課題である。
本稿では,ネイティブな4K解像度SVBRDFを生成可能なメモリおよび計算効率の拡散ベースのフレームワークであるHiMatを紹介する。
私たちが取り組んだ重要な課題は、新しいVAEのトレーニングやDiTバックボーンの大幅な変更に頼ることなく、異なるマップ間の一貫性を軽量に維持することです。
そこで我々はCrossStitchモジュールを紹介した。CrossStitchモジュールは局所的な操作を通じてマップ間の依存関係をキャプチャする軽量な畳み込みモジュールである。
その重みは、微調整開始前にDiTバックボーン操作が変更されないように初期化される。
HiMatは、強い構造コヒーレンスと高周波の詳細を持つ生成を可能にする。
4K SVBRDF 生成における本手法の有効性を,大量のテキストプロンプトを用いて実証した。
さらなる実験は、本質的な分解のようなタスクへの一般化を示唆している。
関連論文リスト
- Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Joint Super-Resolution and Inverse Tone-Mapping: A Feature Decomposition
Aggregation Network and A New Benchmark [0.0]
本稿では,分解機構の潜在的なパワーを活用するために,FDAN(Feature Decomposition Aggregation Network)を提案する。
特に,特徴分解ブロック(FDB)を設計し,詳細と基本特徴マップの学習可能な分離を実現する。
また、SRITM-4K(SRITM-4K)という共同SR-ITMのための大規模データセットも収集し、堅牢なモデルトレーニングと評価のための汎用シナリオを提供する。
論文 参考訳(メタデータ) (2022-07-07T15:16:36Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Bayesian Image Reconstruction using Deep Generative Models [7.012708932320081]
本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
論文 参考訳(メタデータ) (2020-12-08T17:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。