論文の概要: HiMat: DiT-based Ultra-High Resolution SVBRDF Generation
- arxiv url: http://arxiv.org/abs/2508.07011v4
- Date: Tue, 07 Oct 2025 01:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.08849
- Title: HiMat: DiT-based Ultra-High Resolution SVBRDF Generation
- Title(参考訳): HiMat: DiTベースの超高分解能SVBRDF生成
- Authors: Zixiong Wang, Jian Yang, Yiwei Hu, Milos Hasan, Beibei Wang,
- Abstract要約: HiMatは、効率的な4K SVBRDF生成に適した拡散ベースのフレームワークである。
CrossStitchは軽量な畳み込みモジュールで、グローバルな注目を集めるコストを伴わずに、クロスマップの一貫性を強制する。
- 参考スコア(独自算出の注目度): 26.081964370337943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating ultra-high-resolution spatially varying bidirectional reflectance functions (SVBRDFs) is critical for photorealistic 3D content creation, to faithfully represent fine-scale surface details required for close-up rendering. However, achieving 4K generation faces two key challenges: (1) the need to synthesize multiple reflectance maps at full resolution, which multiplies the pixel budget and imposes prohibitive memory and computational cost, and (2) the requirement to maintain strong pixel-level alignment across maps at 4K, which is particularly difficult when adapting pretrained models designed for the RGB image domain. We introduce HiMat, a diffusion-based framework tailored for efficient and diverse 4K SVBRDF generation. To address the first challenge, HiMat performs generation in a high-compression latent space via DC-AE, and employs a pretrained diffusion transformer with linear attention to improve per-map efficiency. To address the second challenge, we propose CrossStitch, a lightweight convolutional module that enforces cross-map consistency without incurring the cost of global attention. Our experiments show that HiMat achieves high-fidelity 4K SVBRDF generation with superior efficiency, structural consistency, and diversity compared to prior methods. Beyond materials, our framework also generalizes to related applications such as intrinsic decomposition.
- Abstract(参考訳): 超高解像度空間変化二方向反射関数(SVBRDF)の作成は、クローズアップレンダリングに必要な微細な表面の詳細を忠実に表現するために、フォトリアリスティックな3Dコンテンツ作成に不可欠である。
しかし、4K 生成を実現するには、(1) 画素予算を乗じて禁止メモリと計算コストを課すマルチリフレクタンスマップをフル解像度で合成する必要性、(2) マップ間の強いピクセルレベルのアライメントを 4K で維持する必要性、という2つの課題がある。
効率的な4K SVBRDF生成に適した拡散型フレームワークであるHiMatを紹介する。
最初の課題に対処するため、HiMatはDC-AEを介して高圧縮潜時空間で生成を行い、線形注意を持つ事前学習拡散変換器を用いてマップ毎の効率を向上させる。
第2の課題に対処するため,グローバルな注目を集めるコストを伴わずに,クロスマップ整合性を実現する軽量な畳み込みモジュールであるCrossStitchを提案する。
実験の結果,HiMatは従来の方法に比べて効率,構造的整合性,多様性に優れた4K SVBRDF生成を実現することがわかった。
材料以外にも、本フレームワークは本質的な分解のような関連する応用にも一般化する。
関連論文リスト
- Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing [62.94394079771687]
急成長する傾向は、表現エンコーダの高次元特徴を生成的潜伏剤として採用することである。
生成タスクに理解指向のエンコーダ機能を適用するための体系的フレームワークを提案する。
提案手法は,テキスト・トゥ・イメージ(T2I)と画像編集タスクにおいて,最先端の再構築,収束の高速化,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2025-12-19T18:59:57Z) - Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - High-resolution Photo Enhancement in Real-time: A Laplacian Pyramid Network [73.19214585791268]
本稿では,LLF-LUT++と呼ばれるピラミッドネットワークについて紹介する。
具体的には,ダウンサンプリング画像のグローバル音節特性を活かした画像適応型3D LUTを利用する。
LLF-LUT++は、HDR+データセット上でPSNRが2.64dB改善されただけでなく、4K解像度の画像を1つのGPUでわずか13msで処理することで、さらに削減されている。
論文 参考訳(メタデータ) (2025-10-13T16:52:32Z) - Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers [45.701222598522456]
Pixel-Perfect Depthはピクセル空間拡散生成に基づく単眼深度推定モデルである。
本モデルは,5つのベンチマークにおいて,すべての生成モデルの中で最高の性能を達成している。
論文 参考訳(メタデータ) (2025-10-08T17:59:33Z) - EfficienT-HDR: An Efficient Transformer-Based Framework via Multi-Exposure Fusion for HDR Reconstruction [0.0]
本研究では,HDR再構成のための軽量ビジョントランスアーキテクチャを提案する。
ゴーストを効果的に抑制するために、Intersection-Aware Adaptive Fusionモジュールを使用している。
実験の結果、ベースラインと比較して、メインバージョンはFLOPSを約67%削減した。
論文 参考訳(メタデータ) (2025-09-24T06:01:37Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Probabilistic-based Feature Embedding of 4-D Light Fields for
Compressive Imaging and Denoising [62.347491141163225]
4次元光電場(LF)は、効率的で効果的な機能埋め込みを実現する上で大きな課題となる。
様々な低次元畳み込みパターンを組み立てることで特徴埋め込みアーキテクチャを学習する確率論的特徴埋め込み(PFE)を提案する。
実世界および合成4次元LF画像において,本手法の有意な優位性を実証した。
論文 参考訳(メタデータ) (2023-06-15T03:46:40Z) - Joint Super-Resolution and Inverse Tone-Mapping: A Feature Decomposition
Aggregation Network and A New Benchmark [0.0]
本稿では,分解機構の潜在的なパワーを活用するために,FDAN(Feature Decomposition Aggregation Network)を提案する。
特に,特徴分解ブロック(FDB)を設計し,詳細と基本特徴マップの学習可能な分離を実現する。
また、SRITM-4K(SRITM-4K)という共同SR-ITMのための大規模データセットも収集し、堅牢なモデルトレーニングと評価のための汎用シナリオを提供する。
論文 参考訳(メタデータ) (2022-07-07T15:16:36Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Light Field Reconstruction via Deep Adaptive Fusion of Hybrid Lenses [67.01164492518481]
本稿では,ハイブリットレンズを用いた高分解能光場(LF)画像の再構成問題について検討する。
本稿では,入力の特徴を包括的に活用できる新しいエンドツーエンド学習手法を提案する。
我々のフレームワークは、高解像度なLFデータ取得のコストを削減し、LFデータストレージと送信の恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2021-02-14T06:44:47Z) - Bayesian Image Reconstruction using Deep Generative Models [7.012708932320081]
本研究では,最先端(sota)生成モデルを用いて強力な画像先行モデルを構築する。
BRGM (Bayesian Reconstruction through Generative Models) と呼ばれる本手法では,1つの事前学習されたジェネレータモデルを用いて,異なる画像復元タスクを解く。
論文 参考訳(メタデータ) (2020-12-08T17:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。