論文の概要: Self-supervised Motion Learning from Static Images
- arxiv url: http://arxiv.org/abs/2104.00240v1
- Date: Thu, 1 Apr 2021 03:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:41:57.452411
- Title: Self-supervised Motion Learning from Static Images
- Title(参考訳): 静止画像からの自己教師ありモーション学習
- Authors: Ziyuan Huang, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Rong Jin,
Marcelo Ang
- Abstract要約: Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。
MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。
下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
- 参考スコア(独自算出の注目度): 36.85209332144106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motions are reflected in videos as the movement of pixels, and actions are
essentially patterns of inconsistent motions between the foreground and the
background. To well distinguish the actions, especially those with complicated
spatio-temporal interactions, correctly locating the prominent motion areas is
of crucial importance. However, most motion information in existing videos are
difficult to label and training a model with good motion representations with
supervision will thus require a large amount of human labour for annotation. In
this paper, we address this problem by self-supervised learning. Specifically,
we propose to learn Motion from Static Images (MoSI). The model learns to
encode motion information by classifying pseudo motions generated by MoSI. We
furthermore introduce a static mask in pseudo motions to create local motion
patterns, which forces the model to additionally locate notable motion areas
for the correct classification.We demonstrate that MoSI can discover regions
with large motion even without fine-tuning on the downstream datasets. As a
result, the learned motion representations boost the performance of tasks
requiring understanding of complex scenes and motions, i.e., action
recognition. Extensive experiments show the consistent and transferable
improvements achieved by MoSI. Codes will be soon released.
- Abstract(参考訳): 動きはピクセルの動きとしてビデオに反映され、アクションは基本的に前景と背景の間の一貫性のない動きのパターンである。
動作をよく区別するため、特に時空間相互作用が複雑である場合には、目立った動き領域を正確に特定することが重要となる。
しかし、既存の動画の動作情報のほとんどは、優れた動作表現を持つモデルのラベル付けや訓練が難しいため、アノテーションのために大量の人的労働を必要とする。
本稿では,自己教師型学習によってこの問題に対処する。
具体的には、静的画像(MoSI)から動きを学ぶことを提案する。
モデルは、MoSIによって生成された擬似動作を分類することにより、動き情報を符号化することを学ぶ。
さらに、疑似動作に静的マスクを導入し、局所的な動きパターンを作成することにより、モデルに適切な分類のための注目すべき動き領域を付加させ、下流データセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証する。
その結果、学習された動き表現は、複雑なシーンや動き、すなわちアクション認識の理解を必要とするタスクのパフォーマンスを高める。
大規模な実験は、MoSIによって達成された一貫性と伝達可能な改善を示している。
コードはすぐにリリースされる。
関連論文リスト
- MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Universal Humanoid Motion Representations for Physics-Based Control [74.53927919796139]
本稿では、ヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現について述べる。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video
Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Differential Motion Evolution for Fine-Grained Motion Deformation in
Unsupervised Image Animation [41.85199775016731]
エンドツーエンドの非教師ありモーショントランスファーフレームワークであるDiMEを紹介する。
通常の微分方程式(ODE)で運動伝達を捉えることで、運動場を規則化するのに役立つ。
また、DMEはソースオブジェクトの複数の異なるビューを簡単に利用することができるというODEの考え方を自然に拡張する。
論文 参考訳(メタデータ) (2021-10-09T22:44:30Z) - Developing Motion Code Embedding for Action Recognition in Videos [5.400294730456784]
動きのベクトル化表現である動き符号(motion codes)と呼ばれる動き埋め込み戦略を提案する。
我々は、視覚的特徴と意味的特徴を組み合わせたディープニューラルネットワークモデルを開発し、運動分類学で見られる特徴を特定し、動画をモーションコードに埋め込みました。
機械学習タスクの機能としての動作符号の可能性を示すために,抽出した特徴を現在の動作認識モデルに統合した。
論文 参考訳(メタデータ) (2020-12-10T03:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。