論文の概要: Self-supervised Motion Learning from Static Images
- arxiv url: http://arxiv.org/abs/2104.00240v1
- Date: Thu, 1 Apr 2021 03:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:41:57.452411
- Title: Self-supervised Motion Learning from Static Images
- Title(参考訳): 静止画像からの自己教師ありモーション学習
- Authors: Ziyuan Huang, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Rong Jin,
Marcelo Ang
- Abstract要約: Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
- 参考スコア(独自算出の注目度): 36.85209332144106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motions are reflected in videos as the movement of pixels, and actions are
essentially patterns of inconsistent motions between the foreground and the
background. To well distinguish the actions, especially those with complicated
spatio-temporal interactions, correctly locating the prominent motion areas is
of crucial importance. However, most motion information in existing videos are
difficult to label and training a model with good motion representations with
supervision will thus require a large amount of human labour for annotation. In
this paper, we address this problem by self-supervised learning. Specifically,
we propose to learn Motion from Static Images (MoSI). The model learns to
encode motion information by classifying pseudo motions generated by MoSI. We
furthermore introduce a static mask in pseudo motions to create local motion
patterns, which forces the model to additionally locate notable motion areas
for the correct classification.We demonstrate that MoSI can discover regions
with large motion even without fine-tuning on the downstream datasets. As a
result, the learned motion representations boost the performance of tasks
requiring understanding of complex scenes and motions, i.e., action
recognition. Extensive experiments show the consistent and transferable
improvements achieved by MoSI. Codes will be soon released.
- Abstract(参考訳): 動きはピクセルの動きとしてビデオに反映され、アクションは基本的に前景と背景の間の一貫性のない動きのパターンである。
動作をよく区別するため、特に時空間相互作用が複雑である場合には、目立った動き領域を正確に特定することが重要となる。
しかし、既存の動画の動作情報のほとんどは、優れた動作表現を持つモデルのラベル付けや訓練が難しいため、アノテーションのために大量の人的労働を必要とする。
本稿では,自己教師型学習によってこの問題に対処する。
具体的には、静的画像(MoSI)から動きを学ぶことを提案する。
モデルは、MoSIによって生成された擬似動作を分類することにより、動き情報を符号化することを学ぶ。
さらに、疑似動作に静的マスクを導入し、局所的な動きパターンを作成することにより、モデルに適切な分類のための注目すべき動き領域を付加させ、下流データセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証する。
その結果、学習された動き表現は、複雑なシーンや動き、すなわちアクション認識の理解を必要とするタスクのパフォーマンスを高める。
大規模な実験は、MoSIによって達成された一貫性と伝達可能な改善を示している。
コードはすぐにリリースされる。
関連論文リスト
- Motion meets Attention: Video Motion Prompts [34.429192862783054]
フレーム差分マップからの動き信号を変調するアテンション機構として,学習可能な傾きとシフトパラメータを持つ修正シグモイド関数を提案する。
このアプローチは、モーション関連ビデオコンテンツの処理を強化するアテンションマップのシーケンスを生成する。
SlowGymやX3D、Timeformerといったモデルに、当社の軽量でプラグアンドプレイのモーションプロンプト層がシームレスに統合されていることが分かりました。
論文 参考訳(メタデータ) (2024-07-03T14:59:46Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Differential Motion Evolution for Fine-Grained Motion Deformation in
Unsupervised Image Animation [41.85199775016731]
エンドツーエンドの非教師ありモーショントランスファーフレームワークであるDiMEを紹介する。
通常の微分方程式(ODE)で運動伝達を捉えることで、運動場を規則化するのに役立つ。
また、DMEはソースオブジェクトの複数の異なるビューを簡単に利用することができるというODEの考え方を自然に拡張する。
論文 参考訳(メタデータ) (2021-10-09T22:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。