Fugu-MT 論文翻訳(概要): StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture

論文の概要: StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture

arxiv url: http://arxiv.org/abs/2412.19535v1
Date: Fri, 27 Dec 2024 09:01:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.26225
Title: StyleRWKV: High-Quality and High-Efficiency Style Transfer with RWKV-like Architecture
Title（参考訳）: StyleRWKV:RWKVライクなアーキテクチャによる高品質かつ高効率なスタイル転送
Authors: Miaomiao Dai, Qianyu Zhou, Lizhuang Ma,
Abstract要約: スタイル転送は、スタイルソースの芸術的表現ではなく、コンテンツを保存する新しいイメージを生成することを目的としている。既存の手法の多くはトランスフォーマーや拡散モデルに基づいているが、2次計算の複雑さと高い推論時間に悩まされている。本稿では,メモリ使用量と線形時間複雑性を制限した高品質なスタイル転送を実現するための新しいフレームワークであるStyleRWKVを提案する。
参考スコア（独自算出の注目度）: 29.178246094092202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Style transfer aims to generate a new image preserving the content but with the artistic representation of the style source. Most of the existing methods are based on Transformers or diffusion models, however, they suffer from quadratic computational complexity and high inference time. RWKV, as an emerging deep sequence models, has shown immense potential for long-context sequence modeling in NLP tasks. In this work, we present a novel framework StyleRWKV, to achieve high-quality style transfer with limited memory usage and linear time complexity. Specifically, we propose a Recurrent WKV (Re-WKV) attention mechanism, which incorporates bidirectional attention to establish a global receptive field. Additionally, we develop a Deformable Shifting (Deform-Shifting) layer that introduces learnable offsets to the sampling grid of the convolution kernel, allowing tokens to shift flexibly and adaptively from the region of interest, thereby enhancing the model's ability to capture local dependencies. Finally, we propose a Skip Scanning (S-Scanning) method that effectively establishes global contextual dependencies. Extensive experiments with analysis including qualitative and quantitative evaluations demonstrate that our approach outperforms state-of-the-art methods in terms of stylization quality, model complexity, and inference efficiency.
Abstract（参考訳）: スタイル転送は、スタイルソースの芸術的表現ではなく、コンテンツを保存する新しいイメージを生成することを目的としている。既存の手法の多くはトランスフォーマーや拡散モデルに基づいているが、2次計算の複雑さと高い推論時間に悩まされている。 RWKVは、新たな深部配列モデルとして、NLPタスクにおける長期コンテキストシーケンスモデリングの潜在的な可能性を示している。本稿では,メモリ使用量に制限のある高品質なスタイル転送を実現するための新しいフレームワークであるStyleRWKVを提案する。具体的には、双方向の注意を取り入れたリカレントWKV(Recurrent WKV)アテンション機構を提案し、グローバルな受容場を確立する。さらに、コンボリューションカーネルのサンプリンググリッドに学習可能なオフセットを導入し、トークンが関心領域から柔軟かつ適応的にシフトできるようにし、局所的な依存関係を捕捉するモデルの能力を向上するデフォルマブルシフト(Deformable Shifting)層を開発する。最後に,グローバルなコンテキスト依存を効果的に確立するSkip Scanning(S-Scanning)手法を提案する。定性的および定量的評価を含む分析による広範囲な実験により,本手法は,スタイライズ品質,モデル複雑性,推論効率において,最先端の手法よりも優れていることが示された。

関連論文リスト

StepVAR: Structure-Texture Guided Pruning for Visual Autoregressive Models [98.72926158261937]
本稿では,Visual AutoRegressive モデルのためのトレーニングフリートークン解析フレームワークを提案する。我々は局所的なテクスチャの詳細を捉えるために軽量なハイパスフィルタを使用し、グローバルな構造情報を保存するために主成分分析(PCA)を活用している。スパーストークンの下で有効な次世代の予測を維持するために,近接した特徴伝達戦略を導入する。
論文参考訳（メタデータ） (2026-03-02T11:35:05Z)
High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [51.90920900332569]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。機能適応型INR(FA-INR)を提案する。
論文参考訳（メタデータ） (2025-06-07T16:45:17Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models [4.364797586362505]
AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
論文参考訳（メタデータ） (2025-03-10T13:28:36Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統合フレームワークUniVSTを提案する。トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文参考訳（メタデータ） (2024-10-26T05:28:02Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:33Z)
HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文参考訳（メタデータ） (2024-01-11T12:26:23Z)
A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2023-03-09T04:35:00Z)
Style Curriculum Learning for Robust Medical Image Segmentation [62.02435329931057]
深部セグメンテーションモデルは、トレーニングデータセットとテストデータセットの間の画像強度の分散シフトによって、しばしば劣化する。本稿では,そのような分散シフトが存在する場合に,ロバストなセグメンテーションを確保するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-08-01T08:56:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。