Fugu-MT 論文翻訳(概要): Hierarchical Motion Understanding via Motion Programs

論文の概要: Hierarchical Motion Understanding via Motion Programs

arxiv url: http://arxiv.org/abs/2104.11216v1
Date: Thu, 22 Apr 2021 17:49:59 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-23 14:10:44.392816
Title: Hierarchical Motion Understanding via Motion Programs
Title（参考訳）: 運動プログラムによる階層的動作理解
Authors: Sumith Kulal, Jiayuan Mao, Alex Aiken, Jiajun Wu
Abstract要約: 動作を高レベルプリミティブの構成として表現する,ニューロシンボリックなプログラムライクな表現であるモーションプログラムを紹介する。また,人間の動画から自動的に動作プログラムを誘導し,映像合成における動作プログラムを活用するシステムを提案する。私たちの表現は、ビデオやビデオの予測といった下流のタスクにも役立ち、既成モデルよりも優れています。
参考スコア（独自算出の注目度）: 23.288517329229943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current approaches to video analysis of human motion focus on raw pixels or keypoints as the basic units of reasoning. We posit that adding higher-level motion primitives, which can capture natural coarser units of motion such as backswing or follow-through, can be used to improve downstream analysis tasks. This higher level of abstraction can also capture key features, such as loops of repeated primitives, that are currently inaccessible at lower levels of representation. We therefore introduce Motion Programs, a neuro-symbolic, program-like representation that expresses motions as a composition of high-level primitives. We also present a system for automatically inducing motion programs from videos of human motion and for leveraging motion programs in video synthesis. Experiments show that motion programs can accurately describe a diverse set of human motions and the inferred programs contain semantically meaningful motion primitives, such as arm swings and jumping jacks. Our representation also benefits downstream tasks such as video interpolation and video prediction and outperforms off-the-shelf models. We further demonstrate how these programs can detect diverse kinds of repetitive motion and facilitate interactive video editing.
Abstract（参考訳）: 人間の動きの映像解析に対する最近のアプローチは、推論の基本単位として生のピクセルやキーポイントに焦点を当てている。バックスウィングやフォロースルーなどの動きの自然な粗い単位をキャプチャできる高レベルなモーションプリミティブを付加することで、下流分析タスクを改善することができると仮定する。この高いレベルの抽象化は、繰り返しプリミティブのループのような、現在低レベルの表現ではアクセスできない重要な機能も捉えることができる。そこで我々は,運動を高レベルプリミティブの構成として表現する,ニューロシンボリックなプログラムライクな表現であるモーションプログラムを紹介する。また,人間の動画から自動的に動作プログラムを誘導し,映像合成における動作プログラムを活用するシステムを提案する。実験により、運動プログラムは人間の様々な動きを正確に記述できることが示され、推定されたプログラムにはアームスイングやジャンピングジャックのような意味的に意味のある動作プリミティブが含まれている。我々の表現は、ビデオ補間やビデオ予測といった下流タスクにも役立ち、市販モデルよりも優れています。さらに,これらのプログラムが多種多様な反復動作を検知し,インタラクティブなビデオ編集を容易にする方法を示す。

関連論文リスト

SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文参考訳（メタデータ） (2024-08-01T10:55:20Z)
FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models [19.09048969615117]
MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
論文参考訳（メタデータ） (2024-06-15T21:10:37Z)
MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。 MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文参考訳（メタデータ） (2024-06-08T03:44:25Z)
MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文参考訳（メタデータ） (2024-05-30T17:59:50Z)
Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文参考訳（メタデータ） (2023-10-06T20:48:43Z)
LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2022-12-08T03:07:00Z)
Render In-between: Motion Guided Video Synthesis for Action Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文参考訳（メタデータ） (2021-11-01T15:32:51Z)
AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文参考訳（メタデータ） (2021-04-05T22:43:14Z)
Developing Motion Code Embedding for Action Recognition in Videos [5.400294730456784]
動きのベクトル化表現である動き符号(motion codes)と呼ばれる動き埋め込み戦略を提案する。我々は、視覚的特徴と意味的特徴を組み合わせたディープニューラルネットワークモデルを開発し、運動分類学で見られる特徴を特定し、動画をモーションコードに埋め込みました。機械学習タスクの機能としての動作符号の可能性を示すために,抽出した特徴を現在の動作認識モデルに統合した。
論文参考訳（メタデータ） (2020-12-10T03:49:23Z)
Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文参考訳（メタデータ） (2020-07-20T17:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。