論文の概要: Comparative Evaluation of CNN Architectures for Neural Style Transfer in Indonesian Batik Motif Generation: A Comprehensive Study
- arxiv url: http://arxiv.org/abs/2601.00888v1
- Date: Wed, 31 Dec 2025 11:06:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.825771
- Title: Comparative Evaluation of CNN Architectures for Neural Style Transfer in Indonesian Batik Motif Generation: A Comprehensive Study
- Title(参考訳): インドネシアのバティクモチーフ生成におけるニューラルスタイル伝達のためのCNNアーキテクチャの比較評価:総合的研究
- Authors: Happy Gery Pangestu, Andi Prademon Yunus, Siti Khomsah,
- Abstract要約: 本研究では,広く使用されている5つのCNNバックボーン,VGG16,VGG19,Inception V3,ResNet50,ResNet101の系統的比較分析を行った。
その結果,背骨選択は構造的類似性に統計的に有意な差を生じないことがわかった。
ResNetベースのアーキテクチャは、VGGモデルよりも約5~6倍高速収束を実現する。
- 参考スコア(独自算出の注目度): 0.5161531917413708
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural Style Transfer (NST) provides a computational framework for the digital preservation and generative exploration of Indonesian batik motifs; however, existing approaches remain largely centered on VGG-based architectures whose strong stylistic expressiveness comes at the cost of high computational and memory demands, that limits practical deployment in resource-limited environments. This study presents a systematic comparative analysis of five widely used CNN backbones, namely VGG16, VGG19, Inception V3, ResNet50, and ResNet101, based on 245 controlled experiments combining quantitative metrics, qualitative assessment, and statistical analysis to examine the trade-off between structural preservation, stylistic behavior, and computational efficiency. The results show that backbone selection does not yield statistically significant differences in structural similarity, as confirmed by ANOVA on SSIM (p= 0.83), indicating comparable levels of structural preservation rather than equivalent stylistic quality. Within this context, ResNet-based architectures achieve approximately 5-6x faster convergence than VGG models while maintaining similar perceptual similarity (LPIPS = 0.53) and requiring over 16x fewer FLOPs (0.63 vs 10.12 GFLOPs). Qualitative analysis reveals consistent stylistic trade-offs, with VGG producing denser painterly textures, ResNet favoring geometric stability and canting stroke preservation with milder stylization, and Inception V3 exhibiting intermediate but noisier behavior. These findings reposition architectural choice in NST from maximizing stylistic intensity toward efficiency-aware and structure-preserving deployment, highlighting ResNet-based backbones as a practical foundation for scalable, industry-oriented batik generation.
- Abstract(参考訳): ニューラルスタイル転送(NST)は、インドネシアのバティックモチーフのデジタル保存と生成的探索のための計算フレームワークを提供するが、既存のアプローチは主にVGGベースのアーキテクチャに焦点を絞っている。
本研究では, 定量的指標, 質的評価, 統計的解析を組み合わせた245個の制御実験に基づいて, 構造保存, 構造的挙動, 計算効率のトレードオフを検証し, 広範に使用されている5つのCNNバックボーン, VGG16, VGG19, Inception V3, ResNet50, ResNet101の系統的比較分析を行った。
その結果、SSIM上のANOVA(p=0.83)で確認されたように、バックボーンの選択は構造的類似性に統計的に有意な差を生じないことが示され(p=0.83)、等価なスタイリスティックな品質よりも構造的保存のレベルが同等であることが示唆された。
この文脈では、ResNetベースのアーキテクチャはVGGモデルよりも約5~6倍早く収束し、同様の知覚的類似性(LPIPS = 0.53)を維持し、FLOPは16倍少ない(0.63対10.12 GFLOP)。
定性的な分析により、VGGはより密度の高い絵画テクスチャを生産し、ResNetは幾何的な安定性とより穏やかなスタイリゼーションでストロークを保存し、Inception V3は中間的だがノイズの多い振る舞いを示す。
これらの知見は,NSTにおけるアーキテクチャ選択を,効率に配慮したスタイリスティックな強度の最大化と構造保存的展開から再配置し,ResNetベースのバックボーンをスケーラブルで産業指向のバティック生成の実践的基盤として強調した。
関連論文リスト
- Robust Variational Model Based Tailored UNet: Leveraging Edge Detector and Mean Curvature for Improved Image Segmentation [7.638424494500011]
本稿では,変分モデルに基づくUNet(VM_TUNet)の頑健なバージョンを提案する。
VM_TUNetは、変分メソッドとディープラーニングを統合するハイブリッドフレームワークである。
3つのベンチマークデータセットを用いた実験により,提案手法は性能と計算効率のバランスの取れたトレードオフを実現することが示された。
論文 参考訳(メタデータ) (2025-12-08T14:33:52Z) - Combining feature-based approaches with graph neural networks and symbolic regression for synergistic performance and interpretability [0.0]
MatterVialは、材料科学における機能ベースの機械学習のための革新的なハイブリッドフレームワークである。
当社のアプローチは,従来の特徴ベースモデルの化学的透明性とディープラーニングアーキテクチャの予測能力を組み合わせたものです。
サブロゲートモデルとシンボリックレグレッションを利用する統合的解釈可能性モジュールは、潜伏したGNN由来の記述子を明示的で物理的に意味のある式にデコードする。
論文 参考訳(メタデータ) (2025-09-02T16:45:02Z) - Finding Optimal Kernel Size and Dimension in Convolutional Neural Networks An Architecture Optimization Approach [0.0]
畳み込みニューラルネットワーク(CNN)におけるカーネルサイズ選択は批判的だが、しばしば見過ごされる設計決定である。
本稿では,最適なカーネルサイズ決定のためのBKSEF(Best Kernel Size Estimation)を提案する。
BKSEFは情報理論、信号処理、学習理論の原理を統合することで、情報ゲイン、計算効率、精度の向上のバランスをとる。
論文 参考訳(メタデータ) (2025-06-16T15:15:30Z) - Structural and Statistical Texture Knowledge Distillation and Learning for Segmentation [70.15341084443236]
セマンティックセグメンテーションと関連する知識蒸留タスクのためのディープネットワークにおける低レベルのテクスチャ情報を再強調する。
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
特に、低レベルの特徴を分解するためにContourlet Decomposition Module (CDM)が導入されている。
テクスチャ強度等化モジュール(TIEM)は、統計テクスチャ知識を抽出し、強化するために設計されている。
論文 参考訳(メタデータ) (2025-03-11T04:49:25Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Exploration of Optimized Semantic Segmentation Architectures for
edge-Deployment on Drones [5.349223987137843]
本稿では,UAVデータ処理におけるセマンティックセグメンテーションアーキテクチャにおけるネットワークパラメータの影響について分析する。
我々は,FPN-EfficientNetB3 の最適ネットワークアーキテクチャを Imagenet に基づいて事前学習したバックボーンエンコーダで同定する。
Model: FPNとBackbone: InResnetV2と比較して、メモリの4.1倍の節約と10%のレイテンシ改善を実現しています。
論文 参考訳(メタデータ) (2020-07-06T15:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。