論文の概要: FloAt: Flow Warping of Self-Attention for Clothing Animation Generation
- arxiv url: http://arxiv.org/abs/2411.15028v1
- Date: Fri, 22 Nov 2024 15:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:02:58.431493
- Title: FloAt: Flow Warping of Self-Attention for Clothing Animation Generation
- Title(参考訳): FloAt: アニメーション生成のための自己注意のフローワープ
- Authors: Swasti Shreya Mishra, Kuldeep Kulkarni, Duygu Ceylan, Balaji Vasan Srinivasan,
- Abstract要約: 拡散モデルに基づくアプローチであるFloAtControlNetを提案する。
本手法のバックボーンは,トレーニング不要なシステムで動作する正規マップ条件付きコントロールネットである。
自己注意マップの操作により,衣服のアニメーションの質が大幅に向上し,自然に見えやすくなり,背景のアーティファクトが抑制されることを示す。
- 参考スコア(独自算出の注目度): 19.97533170576146
- License:
- Abstract: We propose a diffusion model-based approach, FloAtControlNet to generate cinemagraphs composed of animations of human clothing. We focus on human clothing like dresses, skirts and pants. The input to our model is a text prompt depicting the type of clothing and the texture of clothing like leopard, striped, or plain, and a sequence of normal maps that capture the underlying animation that we desire in the output. The backbone of our method is a normal-map conditioned ControlNet which is operated in a training-free regime. The key observation is that the underlying animation is embedded in the flow of the normal maps. We utilize the flow thus obtained to manipulate the self-attention maps of appropriate layers. Specifically, the self-attention maps of a particular layer and frame are recomputed as a linear combination of itself and the self-attention maps of the same layer and the previous frame, warped by the flow on the normal maps of the two frames. We show that manipulating the self-attention maps greatly enhances the quality of the clothing animation, making it look more natural as well as suppressing the background artifacts. Through extensive experiments, we show that the method proposed beats all baselines both qualitatively in terms of visual results and user study. Specifically, our method is able to alleviate the background flickering that exists in other diffusion model-based baselines that we consider. In addition, we show that our method beats all baselines in terms of RMSE and PSNR computed using the input normal map sequences and the normal map sequences obtained from the output RGB frames. Further, we show that well-established evaluation metrics like LPIPS, SSIM, and CLIP scores that are generally for visual quality are not necessarily suitable for capturing the subtle motions in human clothing animations.
- Abstract(参考訳): 拡散モデルに基づくアプローチであるFloAtControlNetを提案する。
私たちはドレス、スカート、ズボンのような人間の服に焦点を合わせます。
我々のモデルへの入力は、ヒョウ、ストライプ、平らな服の種類やテクスチャを描写したテキストプロンプトであり、出力で私たちが望む根底にあるアニメーションをキャプチャする通常の地図のシーケンスである。
本手法のバックボーンは,トレーニング不要なシステムで動作する正規マップ条件付きコントロールネットである。
重要な観察は、基礎となるアニメーションが通常の地図の流れに埋め込まれていることである。
得られた流れを利用して、適切なレイヤの自己注意マップを操作する。
具体的には、特定の層とフレームの自己アテンションマップを、同一層と前のフレームの自己アテンションマップの線形結合として再計算し、2つのフレームの通常のマップ上の流れに干渉する。
自己注意マップの操作により,衣服のアニメーションの質が大幅に向上し,自然に見えやすくなり,背景のアーティファクトが抑制されることを示す。
広範にわたる実験により,提案手法は視覚的結果とユーザスタディの両方において,定性的に全てのベースラインを上回ります。
具体的には,他の拡散モデルに基づくベースラインに存在する背景フレッカリングを緩和することができる。
さらに,本手法は,入力された正規マップシーケンスと出力RGBフレームから得られた正規マップシーケンスを用いて計算したRMSEおよびPSNRのベースラインを全て上回ることを示す。
さらに,LPIPS,SSIM,CLIPなどの視覚的品質の指標が,人間の衣服のアニメーションの微妙な動きを捉えるのに必ずしも適していないことを示す。
関連論文リスト
- Product-Level Try-on: Characteristics-preserving Try-on with Realistic
Clothes Shading and Wrinkles [28.40312452732804]
現実的な衣服の陰影やしわを発生させながら,ロゴや刺青の細かな細部を保存できる新しい拡散型製品レベルの仮想試行パイプライン,ie PLTONを提案する。
PLTONは、従来のワープネットワークでポーズするターゲットモデルにインショップ服をワープし、ハイパスフィルタを使用して静的な布の特徴を保存するためのHF-Mapを抽出する。
1024 768データセットの大規模な定量および定性的実験は、実際の衣服のダイナミクスを模倣する上で、我々のフレームワークの優位性を実証している。
論文 参考訳(メタデータ) (2024-01-20T14:35:34Z) - Unsupervised Learning of Style-Aware Facial Animation from Real Acting
Performances [3.95944314850151]
本稿では, ブレンド形状, 動的テクスチャ, ニューラルレンダリングに基づく写真リアルな頭部モデルのテキスト/音声駆動アニメーションのための新しい手法を提案する。
本手法は,テキストや音声をアニメーションパラメータの列に変換する条件付きCNNに基づいている。
リアルなリアルタイムレンダリングのために、私たちは、改良された色と前景マットを演算することで、ピクセル化ベースのレンダリングを洗練するU-Netを訓練します。
論文 参考訳(メタデータ) (2023-06-16T17:58:04Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Location-Free Camouflage Generation Network [82.74353843283407]
カモフラージュ(Camouflage)は一般的な視覚現象で、前景の物体を背景のイメージに隠すことで、人間の目からは一時的に見えなくなる。
本稿では,前景と背景像の高次特徴を融合させ,一つの推論によって結果を生成する,ロケーションフリーなカモフラージュ生成ネットワーク(LCG-Net)を提案する。
実験により,本手法は単一外観領域における最先端技術と同程度に良好であり,完全に見えない可能性が低いが,多外観領域における最先端技術の品質をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2022-03-18T10:33:40Z) - FabricFlowNet: Bimanual Cloth Manipulation with a Flow-based Policy [12.767693855775967]
本稿では,FabricFlowNetを提案する。FabricFlowNetは,フローをインプットとアクション表現の両方として活用し,性能を向上させる布の操作ポリシーである。
本稿では,FabricFlowNetが画像入力を行う最先端のモデルフリーおよびモデルベース布の操作ポリシーを著しく上回っていることを示す。
本手法は,Tシャツや長方形の布など,一つの正方形の布でトレーニングする場合に一般化する。
論文 参考訳(メタデータ) (2021-11-10T10:29:38Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Animating Pictures with Eulerian Motion Fields [90.30598913855216]
静止画をリアルなアニメーションループ映像に変換する完全自動手法を示す。
流れ水や吹く煙など,連続流体運動の場面を対象とする。
本稿では,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ手法を提案する。
論文 参考訳(メタデータ) (2020-11-30T18:59:06Z) - MonoClothCap: Towards Temporally Coherent Clothing Capture from
Monocular RGB Video [10.679773937444445]
本稿では,モノクラーRGBビデオ入力から時間的コヒーレントな動的衣服の変形を捉える手法を提案する。
我々は,Tシャツ,ショートパンツ,ロングパンツの3種類の衣服の統計的変形モデルを構築した。
本手法は,モノクロ映像から身体と衣服の時間的コヒーレントな再構築を実現する。
論文 参考訳(メタデータ) (2020-09-22T17:54:38Z) - MulayCap: Multi-layer Human Performance Capture Using A Monocular Video
Camera [68.51530260071914]
単眼ビデオカメラを用いた新しい人体パフォーマンスキャプチャ手法である MulayCap について,事前スキャンを必要とせずに紹介する。
この手法は、幾何再構成とテクスチャレンダリングに「多層」表現を用いる。
MulayCapは、布の編集、再ターゲット、リライト、ARアプリケーションなど、さまざまな重要な編集アプリケーションに適用できる。
論文 参考訳(メタデータ) (2020-04-13T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。