論文の概要: Scalable Motion Style Transfer with Constrained Diffusion Generation
- arxiv url: http://arxiv.org/abs/2312.07311v1
- Date: Tue, 12 Dec 2023 14:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:05:03.814892
- Title: Scalable Motion Style Transfer with Constrained Diffusion Generation
- Title(参考訳): 制約付き拡散生成を用いたスケーラブルなモーションスタイル転送
- Authors: Wenjie Yin, Yi Yu, Hang Yin, Danica Kragic, M{\aa}rten Bj\"orkman
- Abstract要約: スタイル転送システムの現在のトレーニングは、コンテンツを保存するためにスタイルドメイン間の一貫性の低下に依存している。
最近の画像伝達の研究は、拡散モデル間の暗黙のブリッジングを活用することにより、各領域における独立したトレーニングの可能性を示している。
トレーニング段階におけるドメイン独立性を維持しながら、後方拡散におけるバイアスサンプリングを行うことにより、この問題に対処する。
- 参考スコア(独自算出の注目度): 27.330473515686187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current training of motion style transfer systems relies on consistency
losses across style domains to preserve contents, hindering its scalable
application to a large number of domains and private data. Recent image
transfer works show the potential of independent training on each domain by
leveraging implicit bridging between diffusion models, with the content
preservation, however, limited to simple data patterns. We address this by
imposing biased sampling in backward diffusion while maintaining the domain
independence in the training stage. We construct the bias from the source
domain keyframes and apply them as the gradient of content constraints,
yielding a framework with keyframe manifold constraint gradients (KMCGs). Our
validation demonstrates the success of training separate models to transfer
between as many as ten dance motion styles. Comprehensive experiments find a
significant improvement in preserving motion contents in comparison to baseline
and ablative diffusion-based style transfer models. In addition, we perform a
human study for a subjective assessment of the quality of generated dance
motions. The results validate the competitiveness of KMCGs.
- Abstract(参考訳): 現在のモーションスタイル転送システムのトレーニングは、コンテンツを保存するためにスタイルドメイン間の一貫性の損失に依存しており、多くのドメインとプライベートデータへのスケーラブルなアプリケーションを妨げる。
近年の画像転送技術は,拡散モデル間の暗黙のブリッジングを利用して,各領域における独立した訓練の可能性を示しているが,コンテンツ保存は単純なデータパターンに限定されている。
トレーニング段階におけるドメイン独立性を維持しながら、後方拡散におけるバイアスサンプリングを行うことにより、この問題に対処する。
我々は、ソースドメインのキーフレームからバイアスを構築し、それをコンテンツ制約の勾配として適用し、キーフレーム多様体制約勾配(KMCG)を持つフレームワークを生成する。
検証の結果,ダンスのスタイルを10種類に切り替える訓練が成功していることが示された。
包括的実験により, ベースラインやアブレーブ拡散に基づくスタイル伝達モデルと比較して, 動作内容の保存が著しく改善された。
また、生成したダンスの動きの質を主観的に評価するための人間の研究を行う。
その結果, KMCGsの競争性が検証された。
関連論文リスト
- Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Diffusion-based Human Motion Style Transfer with Semantic Guidance [23.600154466988073]
拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
論文 参考訳(メタデータ) (2024-03-20T05:52:11Z) - Expanding Expressiveness of Diffusion Models with Limited Data via
Self-Distillation based Fine-Tuning [24.791783885165923]
限られたデータセット上での拡散モデルの訓練は、限られた生成能力と表現性の観点から問題を引き起こす。
これらの課題に対処するために、SDFT(Self-Distillation for Fine-Tuning diffusion model)を提案する。
論文 参考訳(メタデータ) (2023-11-02T06:24:06Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Variational Transfer Learning using Cross-Domain Latent Modulation [1.9662978733004601]
本稿では,効率的な転送学習を実現するために,新しいドメイン間遅延変調機構を変分オートエンコーダフレームワークに導入する。
ソース領域とターゲット領域の深部表現は、まず統一推論モデルにより抽出され、勾配逆数を用いて整列される。
学習した深層表現は、一貫性の制約が適用される代替ドメインの潜在エンコーディングにクロスモデレートされる。
論文 参考訳(メタデータ) (2022-05-31T03:47:08Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Cross-Domain Latent Modulation for Variational Transfer Learning [1.9212368803706577]
分散オートエンコーダ(VAE)フレームワーク内のクロスドメイン潜時変調機構を提案し,トランスファー学習の改善を実現する。
提案モデルは,教師なし領域適応や画像から画像への変換など,多くのトランスファー学習タスクに適用する。
論文 参考訳(メタデータ) (2020-12-21T22:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。