論文の概要: StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture
- arxiv url: http://arxiv.org/abs/2412.19535v1
- Date: Fri, 27 Dec 2024 09:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:08.894087
- Title: StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture
- Title(参考訳): StyleRWKV:RWKVライクなアーキテクチャによる高品質かつ高効率なスタイル転送
- Authors: Miaomiao Dai, Qianyu Zhou, Lizhuang Ma,
- Abstract要約: スタイル転送は、スタイルソースの芸術的表現ではなく、コンテンツを保存する新しいイメージを生成することを目的としている。
既存の手法の多くはトランスフォーマーや拡散モデルに基づいているが、2次計算の複雑さと高い推論時間に悩まされている。
本稿では,メモリ使用量と線形時間複雑性を制限した高品質なスタイル転送を実現するための新しいフレームワークであるStyleRWKVを提案する。
- 参考スコア(独自算出の注目度): 29.178246094092202
- License:
- Abstract: Style transfer aims to generate a new image preserving the content but with the artistic representation of the style source. Most of the existing methods are based on Transformers or diffusion models, however, they suffer from quadratic computational complexity and high inference time. RWKV, as an emerging deep sequence models, has shown immense potential for long-context sequence modeling in NLP tasks. In this work, we present a novel framework StyleRWKV, to achieve high-quality style transfer with limited memory usage and linear time complexity. Specifically, we propose a Recurrent WKV (Re-WKV) attention mechanism, which incorporates bidirectional attention to establish a global receptive field. Additionally, we develop a Deformable Shifting (Deform-Shifting) layer that introduces learnable offsets to the sampling grid of the convolution kernel, allowing tokens to shift flexibly and adaptively from the region of interest, thereby enhancing the model's ability to capture local dependencies. Finally, we propose a Skip Scanning (S-Scanning) method that effectively establishes global contextual dependencies. Extensive experiments with analysis including qualitative and quantitative evaluations demonstrate that our approach outperforms state-of-the-art methods in terms of stylization quality, model complexity, and inference efficiency.
- Abstract(参考訳): スタイル転送は、スタイルソースの芸術的表現ではなく、コンテンツを保存する新しいイメージを生成することを目的としている。
既存の手法の多くはトランスフォーマーや拡散モデルに基づいているが、2次計算の複雑さと高い推論時間に悩まされている。
RWKVは、新たな深部配列モデルとして、NLPタスクにおける長期コンテキストシーケンスモデリングの潜在的な可能性を示している。
本稿では,メモリ使用量に制限のある高品質なスタイル転送を実現するための新しいフレームワークであるStyleRWKVを提案する。
具体的には、双方向の注意を取り入れたリカレントWKV(Recurrent WKV)アテンション機構を提案し、グローバルな受容場を確立する。
さらに、コンボリューションカーネルのサンプリンググリッドに学習可能なオフセットを導入し、トークンが関心領域から柔軟かつ適応的にシフトできるようにし、局所的な依存関係を捕捉するモデルの能力を向上するデフォルマブルシフト(Deformable Shifting)層を開発する。
最後に,グローバルなコンテキスト依存を効果的に確立するSkip Scanning(S-Scanning)手法を提案する。
定性的および定量的評価を含む分析による広範囲な実験により,本手法は,スタイライズ品質,モデル複雑性,推論効率において,最先端の手法よりも優れていることが示された。
関連論文リスト
- Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Style Curriculum Learning for Robust Medical Image Segmentation [62.02435329931057]
深部セグメンテーションモデルは、トレーニングデータセットとテストデータセットの間の画像強度の分散シフトによって、しばしば劣化する。
本稿では,そのような分散シフトが存在する場合に,ロバストなセグメンテーションを確保するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-01T08:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。