論文の概要: Motion meets Attention: Video Motion Prompts
- arxiv url: http://arxiv.org/abs/2407.03179v2
- Date: Wed, 02 Oct 2024 13:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:40.733030
- Title: Motion meets Attention: Video Motion Prompts
- Title(参考訳): 動きは注意に合う:ビデオモーションのプロンプト
- Authors: Qixiang Chen, Lei Wang, Piotr Koniusz, Tom Gedeon,
- Abstract要約: フレーム差分マップからの動き信号を変調するアテンション機構として,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
SlowGymやX3D、Timeformerといったモデルに、当社の軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合されていることが分かりました。
- 参考スコア(独自算出の注目度): 34.429192862783054
- License:
- Abstract: Videos contain rich spatio-temporal information. Traditional methods for extracting motion, used in tasks such as action recognition, often rely on visual contents rather than precise motion features. This phenomenon is referred to as 'blind motion extraction' behavior, which proves inefficient in capturing motions of interest due to a lack of motion-guided cues. Recently, attention mechanisms have enhanced many computer vision tasks by effectively highlighting salient visual areas. Inspired by this, we propose a modified Sigmoid function with learnable slope and shift parameters as an attention mechanism to modulate motion signals from frame differencing maps. This approach generates a sequence of attention maps that enhance the processing of motion-related video content. To ensure temporal continuity and smoothness of the attention maps, we apply pair-wise temporal attention variation regularization to remove unwanted motions (e.g., noise) while preserving important ones. We then perform Hadamard product between each pair of attention maps and the original video frames to highlight the evolving motions of interest over time. These highlighted motions, termed video motion prompts, are subsequently used as inputs to the model instead of the original video frames. We formalize this process as a motion prompt layer and incorporate the regularization term into the loss function to learn better motion prompts. This layer serves as an adapter between the model and the video data, bridging the gap between traditional 'blind motion extraction' and the extraction of relevant motions of interest. We show that our lightweight, plug-and-play motion prompt layer seamlessly integrates into models like SlowFast, X3D, and TimeSformer, enhancing performance on benchmarks such as FineGym and MPII Cooking 2.
- Abstract(参考訳): ビデオには豊富な時空間情報が含まれている。
アクション認識などのタスクで使用される伝統的な動作抽出法は、しばしば正確な動作特徴よりも視覚的内容に依存している。
この現象は「ブラインドモーション抽出」挙動と呼ばれ、動き誘導手段の欠如により、興味ある動きを捉えるのに非効率であることが証明される。
近年,注意機構は視覚領域を効果的に強調することにより,多くのコンピュータビジョンタスクを強化している。
そこで本研究では,学習可能な傾きとシフトパラメータを持つSigmoid関数を,フレーム差分マップからの動き信号を変調するアテンション機構として提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
注意マップの時間的連続性と平滑性を確保するため,重要な動きを保ちながら不要な動き(例えば雑音)を除去するために,ペアワイズ時間的注意変動正規化を適用した。
次に、各注目マップとオリジナルのビデオフレームの間にアダマール製品を実行し、時間とともに進化する関心の動きを強調します。
これらの強調された動き、いわゆるビデオモーションプロンプトは、その後、オリジナルのビデオフレームの代わりにモデルへの入力として使用される。
我々はこのプロセスをモーションプロンプト層として形式化し、正規化項をロス関数に組み込んで、より良いモーションプロンプトを学習する。
この層は、モデルとビデオデータの間のアダプタとして機能し、従来の「ブラインドモーション抽出」と関連する動きの抽出のギャップを埋める。
SlowFast、X3D、TimeSformerのようなモデルに、私たちの軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合され、FinGymやMPII Cooking 2といったベンチマークのパフォーマンスが向上することを示す。
関連論文リスト
- Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-28T09:38:45Z) - Slow Motion Matters: A Slow Motion Enhanced Network for Weakly
Supervised Temporal Action Localization [31.54214885700785]
弱い監督された時間的行動ローカライゼーションは、弱い監督情報しか持たない未編集ビデオのアクションをローカライズすることを目的としている。
ビデオのスローモーション情報を正常な速度で探索することは困難である。
スローモーション・エンハンスメント・ネットワーク(SMEN)と呼ばれる新しいフレームワークを提案し、スローモーション・アクションセグメントに対する感度を補正することでWTALネットワークの能力を向上させる。
論文 参考訳(メタデータ) (2022-11-21T10:15:19Z) - Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文 参考訳(メタデータ) (2021-04-01T03:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。