論文の概要: VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations
- arxiv url: http://arxiv.org/abs/2602.02334v1
- Date: Mon, 02 Feb 2026 16:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.309193
- Title: VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations
- Title(参考訳): VQスタイル:残差量子化表現を用いた動きのパターンと内容
- Authors: Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann, Martin Guay, Stelian Coros, Robert W. Sumner,
- Abstract要約: 本研究では,人間の動作データにおけるスタイルと内容の効果的な切り離し手法を提案する。
我々のアプローチは、内容が粗い動きの属性に対応し、スタイルはより細かで表現力のある詳細をキャプチャする、という洞察に導かれる。
単純かつ効果的な推論時間手法であるQuantized Code Swappingを用いて,この不整合表現を利用する。
- 参考スコア(独自算出の注目度): 21.963237916505175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human motion data is inherently rich and complex, containing both semantic content and subtle stylistic features that are challenging to model. We propose a novel method for effective disentanglement of the style and content in human motion data to facilitate style transfer. Our approach is guided by the insight that content corresponds to coarse motion attributes while style captures the finer, expressive details. To model this hierarchy, we employ Residual Vector Quantized Variational Autoencoders (RVQ-VAEs) to learn a coarse-to-fine representation of motion. We further enhance the disentanglement by integrating contrastive learning and a novel information leakage loss with codebook learning to organize the content and the style across different codebooks. We harness this disentangled representation using our simple and effective inference-time technique Quantized Code Swapping, which enables motion style transfer without requiring any fine-tuning for unseen styles. Our framework demonstrates strong versatility across multiple inference applications, including style transfer, style removal, and motion blending.
- Abstract(参考訳): 人間の動作データは本質的に豊かで複雑で、セマンティックな内容と、モデル化が難しい微妙なスタイルの特徴の両方を含んでいる。
そこで本研究では,人間の動作データにおけるスタイルと内容を効果的に切り離し,スタイル転送を容易にする手法を提案する。
我々のアプローチは、内容が粗い動きの属性に対応し、スタイルはより細かで表現力のある詳細をキャプチャする、という洞察に導かれる。
この階層をモデル化するために、我々はResidual Vector Quantized Variational Autoencoders (RVQ-VAEs) を用いて動きの粗い表現を学習する。
我々は、コントラスト学習と新しい情報漏洩損失をコードブック学習と統合して、異なるコードブック間でコンテンツとスタイルを整理することで、さらに絡み合いを強める。
我々は、この不整合表現を、シンプルで効果的な推論時間技術であるQuantized Code Swappingを用いて利用し、不明瞭なスタイルの微調整を必要とせずに、動作スタイルの転送を可能にする。
我々のフレームワークは、スタイル転送、スタイル削除、モーションブレンディングなど、複数の推論アプリケーションにまたがる強力な汎用性を示す。
関連論文リスト
- Pluggable Style Representation Learning for Multi-Style Transfer [41.09041735653436]
スタイルモデリングと転送を分離してスタイル転送フレームワークを開発する。
スタイルモデリングでは,スタイル情報をコンパクトな表現に符号化するスタイル表現学習方式を提案する。
スタイル転送のために,プラガブルなスタイル表現を用いて多様なスタイルに適応するスタイル認識型マルチスタイル転送ネットワーク(SaMST)を開発した。
論文 参考訳(メタデータ) (2025-03-26T09:44:40Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Generative Human Motion Stylization in Latent Space [42.831468727082694]
単一動作(遅延)符号の多種多様なスタイリング結果を生成する新しい生成モデルを提案する。
推論では、ユーザーは参照動作やラベルからスタイルキューを使用して動きをスタイル化することができる。
提案手法は, 軽量な設計にもかかわらず, スタイル再現, コンテンツ保存, 一般化において, 最先端のスタイリングモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-01-24T14:53:13Z) - ALADIN-NST: Self-supervised disentangled representation learning of
artistic style through Neural Style Transfer [60.6863849241972]
我々は、画像に描かれた意味的内容から、より強く絡み合った視覚芸術スタイルの表現を学習する。
スタイルと内容の絡み合いに強く対処することで、スタイル固有のメトリクスが大きく向上することを示します。
論文 参考訳(メタデータ) (2023-04-12T10:33:18Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。