論文の概要: Texture Image Synthesis Using Spatial GAN Based on Vision Transformers
- arxiv url: http://arxiv.org/abs/2502.01842v1
- Date: Mon, 03 Feb 2025 21:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:11.078660
- Title: Texture Image Synthesis Using Spatial GAN Based on Vision Transformers
- Title(参考訳): 視覚変換器を用いた空間GANを用いたテクスチャ画像合成
- Authors: Elahe Salari, Zohreh Azimifar,
- Abstract要約: 本研究では,視覚変換器(ViT)と空間生成支援ネットワーク(SGAN)を融合した新しいハイブリッドモデルViT-SGANを提案する。
平均分散(mu, sigma)やテクソンなどの特殊テクスチャ記述子をViTの自己保持機構に組み込むことで, 優れたテクスチャ合成を実現する。
- 参考スコア(独自算出の注目度): 1.6482333106552793
- License:
- Abstract: Texture synthesis is a fundamental task in computer vision, whose goal is to generate visually realistic and structurally coherent textures for a wide range of applications, from graphics to scientific simulations. While traditional methods like tiling and patch-based techniques often struggle with complex textures, recent advancements in deep learning have transformed this field. In this paper, we propose ViT-SGAN, a new hybrid model that fuses Vision Transformers (ViTs) with a Spatial Generative Adversarial Network (SGAN) to address the limitations of previous methods. By incorporating specialized texture descriptors such as mean-variance (mu, sigma) and textons into the self-attention mechanism of ViTs, our model achieves superior texture synthesis. This approach enhances the model's capacity to capture complex spatial dependencies, leading to improved texture quality that is superior to state-of-the-art models, especially for regular and irregular textures. Comparison experiments with metrics such as FID, IS, SSIM, and LPIPS demonstrate the substantial improvement of ViT-SGAN, which underlines its efficiency in generating diverse realistic textures.
- Abstract(参考訳): テクスチャ合成はコンピュータビジョンの基本的なタスクであり、そのゴールは、グラフィックスから科学シミュレーションまで幅広い応用のために視覚的にリアルで構造的に整合したテクスチャを生成することである。
タイリングやパッチベースの手法のような伝統的な手法は複雑なテクスチャに苦しむことが多いが、近年のディープラーニングの進歩はこの分野を変えつつある。
本稿では,視覚変換器(ViT)と空間生成支援ネットワーク(SGAN)を融合した新しいハイブリッドモデルViT-SGANを提案する。
平均分散(mu, sigma)やテクソンなどの特殊テクスチャ記述子をViTの自己保持機構に組み込むことで, 優れたテクスチャ合成を実現する。
このアプローチにより、複雑な空間的依存関係をキャプチャするモデルの能力が向上し、特に規則的および不規則なテクスチャにおいて、最先端のモデルよりも優れたテクスチャ品質が向上する。
FID, IS, SSIM, LPIPSなどの指標との比較実験により, ViT-SGANの大幅な改善が示された。
関連論文リスト
- DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Enhancing Texture Generation with High-Fidelity Using Advanced Texture
Priors [1.4542583614606408]
粗いテクスチャを初期入力として利用する高分解能で高忠実なテクスチャ復元手法を提案する。
また,現在の高分解能テクスチャ合成方式におけるノイズ問題に対処する自己教師型スキームに基づく背景雑音平滑化手法を提案する。
本手法により,高分解能なテクスチャ合成が可能となり,高精細テクスチャ合成技術への道が開かれた。
論文 参考訳(メタデータ) (2024-03-08T07:07:28Z) - Generating Non-Stationary Textures using Self-Rectification [70.91414475376698]
本稿では,実例に基づく非定常テクスチャ合成の課題に対処する。
本稿では,ユーザが標準画像編集ツールを使用して参照テクスチャを初めて修正する,新しい2段階のアプローチを提案する。
提案手法は「自己修正(self-rectification)」と呼ばれ、このターゲットを自動的にコヒーレントでシームレスなテクスチャに洗練する。
論文 参考訳(メタデータ) (2024-01-05T15:07:05Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Diffusion-based Holistic Texture Rectification and Synthesis [26.144666226217062]
伝統的なテクスチャ合成アプローチは、原始サンプルからテクスチャを生成することに重点を置いている。
自然画像中の劣化サンプルから全体的テクスチャを合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-26T08:44:46Z) - Texture Representation via Analysis and Synthesis with Generative
Adversarial Networks [11.67779950826776]
本稿では,データ駆動型テクスチャモデリングを生成合成を用いた解析と合成により検討する。
合成にStyleGAN3を採用し、トレーニングデータに表される以上の多様なテクスチャを生成することを示した。
テクスチャ解析のために,合成テクスチャに対する新しい遅延整合性基準と,実際のテクスチャに対するグラミアンロスによる反復的改善を用いたGANを提案する。
論文 参考訳(メタデータ) (2022-12-20T03:57:11Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Dynamic Texture Synthesis by Incorporating Long-range Spatial and
Temporal Correlations [27.247382497265214]
我々は、参照テクスチャビデオの構造的および長距離相関を捉えるために、Shifted Gram lossと呼ばれる新しい損失項を導入する。
また,複数フレーム間の長周期動作を利用したフレームサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2021-04-13T05:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。