論文の概要: Texture Image Synthesis Using Spatial GAN Based on Vision Transformers
- arxiv url: http://arxiv.org/abs/2502.01842v1
- Date: Mon, 03 Feb 2025 21:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:11.078660
- Title: Texture Image Synthesis Using Spatial GAN Based on Vision Transformers
- Title(参考訳): 視覚変換器を用いた空間GANを用いたテクスチャ画像合成
- Authors: Elahe Salari, Zohreh Azimifar,
- Abstract要約: 本研究では,視覚変換器(ViT)と空間生成支援ネットワーク(SGAN)を融合した新しいハイブリッドモデルViT-SGANを提案する。
平均分散(mu, sigma)やテクソンなどの特殊テクスチャ記述子をViTの自己保持機構に組み込むことで, 優れたテクスチャ合成を実現する。
- 参考スコア(独自算出の注目度): 1.6482333106552793
- License:
- Abstract: Texture synthesis is a fundamental task in computer vision, whose goal is to generate visually realistic and structurally coherent textures for a wide range of applications, from graphics to scientific simulations. While traditional methods like tiling and patch-based techniques often struggle with complex textures, recent advancements in deep learning have transformed this field. In this paper, we propose ViT-SGAN, a new hybrid model that fuses Vision Transformers (ViTs) with a Spatial Generative Adversarial Network (SGAN) to address the limitations of previous methods. By incorporating specialized texture descriptors such as mean-variance (mu, sigma) and textons into the self-attention mechanism of ViTs, our model achieves superior texture synthesis. This approach enhances the model's capacity to capture complex spatial dependencies, leading to improved texture quality that is superior to state-of-the-art models, especially for regular and irregular textures. Comparison experiments with metrics such as FID, IS, SSIM, and LPIPS demonstrate the substantial improvement of ViT-SGAN, which underlines its efficiency in generating diverse realistic textures.
- Abstract(参考訳): テクスチャ合成はコンピュータビジョンの基本的なタスクであり、そのゴールは、グラフィックスから科学シミュレーションまで幅広い応用のために視覚的にリアルで構造的に整合したテクスチャを生成することである。
タイリングやパッチベースの手法のような伝統的な手法は複雑なテクスチャに苦しむことが多いが、近年のディープラーニングの進歩はこの分野を変えつつある。
本稿では,視覚変換器(ViT)と空間生成支援ネットワーク(SGAN)を融合した新しいハイブリッドモデルViT-SGANを提案する。
平均分散(mu, sigma)やテクソンなどの特殊テクスチャ記述子をViTの自己保持機構に組み込むことで, 優れたテクスチャ合成を実現する。
このアプローチにより、複雑な空間的依存関係をキャプチャするモデルの能力が向上し、特に規則的および不規則なテクスチャにおいて、最先端のモデルよりも優れたテクスチャ品質が向上する。
FID, IS, SSIM, LPIPSなどの指標との比較実験により, ViT-SGANの大幅な改善が示された。
関連論文リスト
- DTSGAN: Learning Dynamic Textures via Spatiotemporal Generative Adversarial Network [11.511407106519245]
一つの動的テクスチャから学習できる時間生成逆映像ネットワーク(DTSGAN)を導入する。
DTSGANのパイプラインでは、粗いスケールから最も細かいスケールまで、新しいビデオシーケンスが生成される。
論文 参考訳(メタデータ) (2024-12-22T09:49:48Z) - NeRF-Texture: Synthesizing Neural Radiance Field Textures [77.24205024987414]
与えられた多視点画像からテクスチャを捕捉・合成するためのニューラルレージアンス場(NeRF)を用いた新しいテクスチャ合成法を提案する。
提案したNeRFテクスチャ表現では、微細な幾何学的詳細を持つシーンをメソ構造テクスチャと基盤形状に分割する。
我々は潜伏特徴のパッチマッチングによってNeRFベースのテクスチャを合成できる。
論文 参考訳(メタデータ) (2024-12-13T09:41:48Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - Generating Non-Stationary Textures using Self-Rectification [70.91414475376698]
本稿では,実例に基づく非定常テクスチャ合成の課題に対処する。
本稿では,ユーザが標準画像編集ツールを使用して参照テクスチャを初めて修正する,新しい2段階のアプローチを提案する。
提案手法は「自己修正(self-rectification)」と呼ばれ、このターゲットを自動的にコヒーレントでシームレスなテクスチャに洗練する。
論文 参考訳(メタデータ) (2024-01-05T15:07:05Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Diffusion-based Holistic Texture Rectification and Synthesis [26.144666226217062]
伝統的なテクスチャ合成アプローチは、原始サンプルからテクスチャを生成することに重点を置いている。
自然画像中の劣化サンプルから全体的テクスチャを合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-26T08:44:46Z) - Texture Representation via Analysis and Synthesis with Generative
Adversarial Networks [11.67779950826776]
本稿では,データ駆動型テクスチャモデリングを生成合成を用いた解析と合成により検討する。
合成にStyleGAN3を採用し、トレーニングデータに表される以上の多様なテクスチャを生成することを示した。
テクスチャ解析のために,合成テクスチャに対する新しい遅延整合性基準と,実際のテクスチャに対するグラミアンロスによる反復的改善を用いたGANを提案する。
論文 参考訳(メタデータ) (2022-12-20T03:57:11Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Dynamic Texture Synthesis by Incorporating Long-range Spatial and
Temporal Correlations [27.247382497265214]
我々は、参照テクスチャビデオの構造的および長距離相関を捉えるために、Shifted Gram lossと呼ばれる新しい損失項を導入する。
また,複数フレーム間の長周期動作を利用したフレームサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2021-04-13T05:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。