Fugu-MT 論文翻訳(概要): MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

論文の概要: MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms

arxiv url: http://arxiv.org/abs/2410.18977v1
Date: Thu, 24 Oct 2024 17:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.073626
Title: MotionCLR: Motion Generation and Training-free Editing via Understanding Attention Mechanisms
Title（参考訳）: MotionCLR: 注意機構の理解による運動生成と学習不要な編集
Authors: Ling-Hao Chen, Wenxun Dai, Xuan Ju, Shunlin Lu, Lei Zhang,
Abstract要約: 我々は,注目マップを操作することで,シンプルかつ効果的な動作編集手法を多目的に開発する。提案手法は,優れた説明性を備えた優れた生成・編集能力を有する。
参考スコア（独自算出の注目度）: 12.621553130655945
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This research delves into the problem of interactive editing of human motion generation. Previous motion diffusion models lack explicit modeling of the word-level text-motion correspondence and good explainability, hence restricting their fine-grained editing ability. To address this issue, we propose an attention-based motion diffusion model, namely MotionCLR, with CLeaR modeling of attention mechanisms. Technically, MotionCLR models the in-modality and cross-modality interactions with self-attention and cross-attention, respectively. More specifically, the self-attention mechanism aims to measure the sequential similarity between frames and impacts the order of motion features. By contrast, the cross-attention mechanism works to find the fine-grained word-sequence correspondence and activate the corresponding timesteps in the motion sequence. Based on these key properties, we develop a versatile set of simple yet effective motion editing methods via manipulating attention maps, such as motion (de-)emphasizing, in-place motion replacement, and example-based motion generation, etc. For further verification of the explainability of the attention mechanism, we additionally explore the potential of action-counting and grounded motion generation ability via attention maps. Our experimental results show that our method enjoys good generation and editing ability with good explainability.
Abstract（参考訳）: 本研究は,人間の動作生成のインタラクティブな編集の問題について考察する。従来の動き拡散モデルは、単語レベルのテキスト-モーション対応の明示的なモデリングと説明性に欠けており、それによって微細な編集能力を制限している。そこで本研究では,注意機構のCLeaRモデルを用いて,注意に基づく動き拡散モデルであるMotionCLRを提案する。技術的には、MotionCLRは、モダリティとモダリティの相互作用を、それぞれ自己アテンションと相互アテンションでモデル化する。より具体的には、自己注意機構はフレーム間の逐次的類似度を測定し、運動特徴の順序に影響を与えることを目的としている。対照的に、クロスアテンション機構は、粒度の細かい単語列対応を見つけ出し、動作シーケンスの対応する時間ステップを活性化する。これらのキー特性に基づいて、動作強調(de-)強調、位置移動置換、例に基づく動き生成など、注目マップを操作することで、シンプルで効果的な動き編集手法を多目的に開発する。注意機構の説明可能性のさらなる検証のために,注意図を用いた行動計数とグラウンドド・モーション・ジェネレーションの可能性についても検討する。実験結果から,提案手法は優れた生成能力と,優れた説明性を持つ編集能力を享受できることが示唆された。

関連論文リスト

IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文参考訳（メタデータ） (2026-02-07T11:17:20Z)
MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。 2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-09-28T14:31:41Z)
Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning [50.4776422843776]
Follow-Your-Motionは、複雑な動きを合成するために強力なビデオ拡散トランスフォーマーを微調整する、効率的な2段階ビデオモーション転送フレームワークである。我々は,Follow-Your-Motionの優位性を検証するため,MotionBenchについて広範囲に評価を行った。
論文参考訳（メタデータ） (2025-06-05T16:18:32Z)
Dynamic Motion Blending for Versatile Motion Editing [43.10279926787476]
我々は、入力テキストに基づいて身体部分の動きをブレンドすることでトレーニングトレーレットを生成するオンラインデータ拡張技術であるMotionMixCutを紹介する。我々は、モーションコーディネータを備えた自己回帰拡散モデルであるMotionReFitを提案する。提案手法は,高レベルの人的指示から直接,空間的および時間的動作の編集を行う。
論文参考訳（メタデータ） (2025-03-26T17:07:24Z)
Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。 Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文参考訳（メタデータ） (2025-02-17T08:52:45Z)
KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。動作を別個の体節群運動に分解する動き表現を提案する。
論文参考訳（メタデータ） (2024-11-23T06:50:11Z)
Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文参考訳（メタデータ） (2024-07-11T12:33:56Z)
Motion meets Attention: Video Motion Prompts [34.429192862783054]
フレーム差分マップからの動き信号を変調するアテンション機構として,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を提案する。このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。 SlowGymやX3D、Timeformerといったモデルに、当社の軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合されていることが分かりました。
論文参考訳（メタデータ） (2024-07-03T14:59:46Z)
Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文参考訳（メタデータ） (2024-06-10T17:47:14Z)
MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。 MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文参考訳（メタデータ） (2024-06-08T03:44:25Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-05T04:24:11Z)
M2A: Motion Aware Attention for Accurate Video Action Recognition [86.67413715815744]
我々は,動作特性を明示的に組み込んだM2A(Motion Aware Attention)と呼ばれる新しい注意機構を開発した。 M2Aは連続するフレーム間の動き情報を抽出し、フレーム全体で見られる動きパターンに注目して、ビデオ中の動作を正確に認識する。提案したM2A機構を用いて,動作機構をアテンション機構に組み込むことで,異なるバックボーンアーキテクチャにおいて,トップ1の精度が15%から26%向上する可能性が示唆された。
論文参考訳（メタデータ） (2021-11-18T23:38:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。