論文の概要: PyramidStyler: Transformer-Based Neural Style Transfer with Pyramidal Positional Encoding and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.01715v1
- Date: Thu, 02 Oct 2025 06:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.027098
- Title: PyramidStyler: Transformer-Based Neural Style Transfer with Pyramidal Positional Encoding and Reinforcement Learning
- Title(参考訳): PyramidStyler: ピラミッド位置エンコーディングと強化学習を用いたトランスフォーマーベースニューラルスタイルトランスファー
- Authors: Raahul Krishna Durairaju, K. Saruladha,
- Abstract要約: 計算負荷を低減しつつ,局所的な詳細とグローバルなコンテキストの両方をキャプチャする階層的,マルチスケールなエンコーディングであるPraamidal Positional PPEを用いたトランスフォーマーフレームワークであるPraamidStylerを紹介する。
MicrosoftとWikiArtでトレーニングされたPraamidStylerは、コンテンツ損失を62.6%(2.07)、スタイル損失を57.4%(0.86)に減らし、4000 epochsで1.39 sの推論を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Style Transfer (NST) has evolved from Gatys et al.'s (2015) CNN-based algorithm, enabling AI-driven artistic image synthesis. However, existing CNN and transformer-based models struggle to scale efficiently to complex styles and high-resolution inputs. We introduce PyramidStyler, a transformer framework with Pyramidal Positional Encoding (PPE): a hierarchical, multi-scale encoding that captures both local details and global context while reducing computational load. We further incorporate reinforcement learning to dynamically optimize stylization, accelerating convergence. Trained on Microsoft COCO and WikiArt, PyramidStyler reduces content loss by 62.6% (to 2.07) and style loss by 57.4% (to 0.86) after 4000 epochs--achieving 1.39 s inference--and yields further improvements (content 2.03; style 0.75) with minimal speed penalty (1.40 s) when using RL. These results demonstrate real-time, high-quality artistic rendering, with broad applications in media and design.
- Abstract(参考訳): Neural Style Transfer (NST)は、AI駆動の芸術的画像合成を可能にする、Gatys et al's (2015) CNNベースのアルゴリズムから進化した。
しかし、既存のCNNやトランスフォーマーベースのモデルは、複雑なスタイルや高解像度の入力に効率よくスケールするのに苦労している。
計算負荷を低減しつつ,局所的な詳細とグローバルなコンテキストの両方をキャプチャする階層型マルチスケール符号化である。
さらに、強化学習を取り入れてスタイリゼーションを動的に最適化し、収束を加速する。
Microsoft COCOとWikiArtでトレーニングされたPraamidStylerは、コンテンツ損失を62.6%(2.07)、スタイル損失を57.4%(0.86)に減らし、4000 epochsで1.39 sの推論を実現した。
これらの結果は、リアルタイムで高品質な芸術的レンダリングを示し、メディアやデザインに広く応用されている。
関連論文リスト
- Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。
元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。
フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文 参考訳(メタデータ) (2024-10-08T12:10:37Z) - Efficient Image Generation with Variadic Attention Heads [66.9694645123474]
単変圧器のアテンションヘッドが複数の受容場に到達できるようにするための,単純かつ強力な手法を提案する。
筆者らは、近隣意識(NA)を利用して画像を生成するためのStyleGANベースのアーキテクチャに組み込む手法を実証した。
StyleNATと呼ばれるこの作業により、FFHQで2.05のFIDを達成することができ、StyleGAN-XLよりも6%改善されています。
論文 参考訳(メタデータ) (2022-11-10T18:55:48Z) - Efficient Adaptive Ensembling for Image Classification [3.7241274058257092]
本稿では,複雑性を増大させることなく画像分類性能を向上させる新しい手法を提案する。
データの不整合部分集合に基づいて2つの効率的なNet-b0のエンドツーエンドモデルを訓練した。
精度で平均0.5$%の精度で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2022-06-15T08:55:47Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Styleformer: Transformer based Generative Adversarial Networks with
Style Vector [5.025654873456756]
StyleformerはGANアーキテクチャ用のスタイルベースのジェネレータであるが、畳み込みのないトランスフォーマーベースのジェネレータである。
コンボリューション演算が画像のグローバルな特徴を捉えるのが難しいという欠点を克服して、トランスフォーマーが高品質な画像を生成する方法を示す。
論文 参考訳(メタデータ) (2021-06-13T15:30:39Z) - Depthwise Spatio-Temporal STFT Convolutional Neural Networks for Human
Action Recognition [42.400429835080416]
従来の3D畳み込みニューラルネットワーク(CNN)は計算コストが高く、メモリ集約性があり、過度に適合する傾向がある。
本稿では,3次元CNNにおける3次元畳み込み層の代替として機能する新しい畳み込みブロックのクラスを提案する。
Some-something v1, v2, Jester, Diving Kinetics-400, UCF 101, HMDB 51を含む7つの行動認識データセットについて,STFTブロックをベースとした3D CNNが,現状と比較して同等以上の性能で達成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-22T12:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。