論文の概要: Pay Attention and Move Better: Harnessing Attention for Interactive Motion Generation and Training-free Editing
- arxiv url: http://arxiv.org/abs/2410.18977v2
- Date: Wed, 22 Jan 2025 15:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:45.526560
- Title: Pay Attention and Move Better: Harnessing Attention for Interactive Motion Generation and Training-free Editing
- Title(参考訳): 報酬の注意と運動改善:対話型モーション生成と学習不要編集のためのハーネスング注意
- Authors: Ling-Hao Chen, Shunlin Lu, Wenxun Dai, Zhiyang Dou, Xuan Ju, Jingbo Wang, Taku Komura, Lei Zhang,
- Abstract要約: 我々は,注目マップを操作することで,シンプルかつ効果的な動作編集手法を多目的に開発する。
提案手法は,優れた説明性を備えた優れた生成・編集能力を有する。
- 参考スコア(独自算出の注目度): 23.70162749652725
- License:
- Abstract: This research delves into the problem of interactive editing of human motion generation. Previous motion diffusion models lack explicit modeling of the word-level text-motion correspondence and good explainability, hence restricting their fine-grained editing ability. To address this issue, we propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR modeling of attention mechanisms. Technically, MotionCLR models the in-modality and cross-modality interactions with self-attention and cross-attention, respectively. More specifically, the self-attention mechanism aims to measure the sequential similarity between frames and impacts the order of motion features. By contrast, the cross-attention mechanism works to find the fine-grained word-sequence correspondence and activate the corresponding timesteps in the motion sequence. Based on these key properties, we develop a versatile set of simple yet effective motion editing methods via manipulating attention maps, such as motion (de-)emphasizing, in-place motion replacement, and example-based motion generation, etc. For further verification of the explainability of the attention mechanism, we additionally explore the potential of action-counting and grounded motion generation ability via attention maps. Our experimental results show that our method enjoys good generation and editing ability with good explainability.
- Abstract(参考訳): 本研究は,人間の動作生成のインタラクティブな編集の問題について考察する。
従来の動き拡散モデルは、単語レベルのテキスト-モーション対応の明示的なモデリングと説明性に欠けており、それによって微細な編集能力を制限している。
そこで本研究では,注意機構のCLeaRモデルを用いて,注意に基づく動き拡散モデルであるMotionCLRを提案する。
技術的には、MotionCLRは、モダリティとモダリティの相互作用を、それぞれ自己アテンションと相互アテンションでモデル化する。
より具体的には、自己注意機構はフレーム間の逐次的類似度を測定し、運動特徴の順序に影響を与えることを目的としている。
対照的に、クロスアテンション機構は、粒度の細かい単語列対応を見つけ出し、動作シーケンスの対応する時間ステップを活性化する。
これらのキー特性に基づいて、動作強調(de-)強調、位置移動置換、例に基づく動き生成など、注目マップを操作することで、シンプルで効果的な動き編集手法を多目的に開発する。
注意機構の説明可能性のさらなる検証のために,注意図を用いた行動計数とグラウンドド・モーション・ジェネレーションの可能性についても検討する。
実験結果から,提案手法は優れた生成能力と,優れた説明性を持つ編集能力を享受できることが示唆された。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Motion meets Attention: Video Motion Prompts [34.429192862783054]
フレーム差分マップからの動き信号を変調するアテンション機構として,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
SlowGymやX3D、Timeformerといったモデルに、当社の軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合されていることが分かりました。
論文 参考訳(メタデータ) (2024-07-03T14:59:46Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - M2A: Motion Aware Attention for Accurate Video Action Recognition [86.67413715815744]
我々は,動作特性を明示的に組み込んだM2A(Motion Aware Attention)と呼ばれる新しい注意機構を開発した。
M2Aは連続するフレーム間の動き情報を抽出し、フレーム全体で見られる動きパターンに注目して、ビデオ中の動作を正確に認識する。
提案したM2A機構を用いて,動作機構をアテンション機構に組み込むことで,異なるバックボーンアーキテクチャにおいて,トップ1の精度が15%から26%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-18T23:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。