論文の概要: Scalable Motion Style Transfer with Constrained Diffusion Generation
- arxiv url: http://arxiv.org/abs/2312.07311v1
- Date: Tue, 12 Dec 2023 14:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:05:03.814892
- Title: Scalable Motion Style Transfer with Constrained Diffusion Generation
- Title(参考訳): 制約付き拡散生成を用いたスケーラブルなモーションスタイル転送
- Authors: Wenjie Yin, Yi Yu, Hang Yin, Danica Kragic, M{\aa}rten Bj\"orkman
- Abstract要約: スタイル転送システムの現在のトレーニングは、コンテンツを保存するためにスタイルドメイン間の一貫性の低下に依存している。
最近の画像伝達の研究は、拡散モデル間の暗黙のブリッジングを活用することにより、各領域における独立したトレーニングの可能性を示している。
トレーニング段階におけるドメイン独立性を維持しながら、後方拡散におけるバイアスサンプリングを行うことにより、この問題に対処する。
- 参考スコア(独自算出の注目度): 27.330473515686187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current training of motion style transfer systems relies on consistency
losses across style domains to preserve contents, hindering its scalable
application to a large number of domains and private data. Recent image
transfer works show the potential of independent training on each domain by
leveraging implicit bridging between diffusion models, with the content
preservation, however, limited to simple data patterns. We address this by
imposing biased sampling in backward diffusion while maintaining the domain
independence in the training stage. We construct the bias from the source
domain keyframes and apply them as the gradient of content constraints,
yielding a framework with keyframe manifold constraint gradients (KMCGs). Our
validation demonstrates the success of training separate models to transfer
between as many as ten dance motion styles. Comprehensive experiments find a
significant improvement in preserving motion contents in comparison to baseline
and ablative diffusion-based style transfer models. In addition, we perform a
human study for a subjective assessment of the quality of generated dance
motions. The results validate the competitiveness of KMCGs.
- Abstract(参考訳): 現在のモーションスタイル転送システムのトレーニングは、コンテンツを保存するためにスタイルドメイン間の一貫性の損失に依存しており、多くのドメインとプライベートデータへのスケーラブルなアプリケーションを妨げる。
近年の画像転送技術は,拡散モデル間の暗黙のブリッジングを利用して,各領域における独立した訓練の可能性を示しているが,コンテンツ保存は単純なデータパターンに限定されている。
トレーニング段階におけるドメイン独立性を維持しながら、後方拡散におけるバイアスサンプリングを行うことにより、この問題に対処する。
我々は、ソースドメインのキーフレームからバイアスを構築し、それをコンテンツ制約の勾配として適用し、キーフレーム多様体制約勾配(KMCG)を持つフレームワークを生成する。
検証の結果,ダンスのスタイルを10種類に切り替える訓練が成功していることが示された。
包括的実験により, ベースラインやアブレーブ拡散に基づくスタイル伝達モデルと比較して, 動作内容の保存が著しく改善された。
また、生成したダンスの動きの質を主観的に評価するための人間の研究を行う。
その結果, KMCGsの競争性が検証された。
関連論文リスト
- Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Expanding Expressiveness of Diffusion Models with Limited Data via
Self-Distillation based Fine-Tuning [24.791783885165923]
限られたデータセット上での拡散モデルの訓練は、限られた生成能力と表現性の観点から問題を引き起こす。
これらの課題に対処するために、SDFT(Self-Distillation for Fine-Tuning diffusion model)を提案する。
論文 参考訳(メタデータ) (2023-11-02T06:24:06Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - A Novel Cross-Perturbation for Single Domain Generalization [46.8767736833229]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - Unsupervised Domain Transfer with Conditional Invertible Neural Networks [83.90291882730925]
条件付き可逆ニューラルネットワーク(cINN)に基づくドメイン転送手法を提案する。
提案手法は本質的に,その可逆的アーキテクチャによるサイクル一貫性を保証し,ネットワークトレーニングを最大限効率的に行うことができる。
提案手法は,2つの下流分類タスクにおいて,現実的なスペクトルデータの生成を可能にし,その性能を向上する。
論文 参考訳(メタデータ) (2023-03-17T18:00:27Z) - Towards Enhanced Controllability of Diffusion Models [22.84630454597448]
我々は,2つの潜伏符号に条件付き拡散モデル,空間的内容マスクと平らなスタイルの埋め込みを訓練する。
既存の手法と比較して制御性が向上し, 画像操作, 参照ベース画像翻訳, スタイル転送に拡散モデルが有効であることを示す。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - Variational Transfer Learning using Cross-Domain Latent Modulation [1.9662978733004601]
本稿では,効率的な転送学習を実現するために,新しいドメイン間遅延変調機構を変分オートエンコーダフレームワークに導入する。
ソース領域とターゲット領域の深部表現は、まず統一推論モデルにより抽出され、勾配逆数を用いて整列される。
学習した深層表現は、一貫性の制約が適用される代替ドメインの潜在エンコーディングにクロスモデレートされる。
論文 参考訳(メタデータ) (2022-05-31T03:47:08Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Cross-Domain Latent Modulation for Variational Transfer Learning [1.9212368803706577]
分散オートエンコーダ(VAE)フレームワーク内のクロスドメイン潜時変調機構を提案し,トランスファー学習の改善を実現する。
提案モデルは,教師なし領域適応や画像から画像への変換など,多くのトランスファー学習タスクに適用する。
論文 参考訳(メタデータ) (2020-12-21T22:45:00Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。