論文の概要: Estimating Motion Codes from Demonstration Videos
- arxiv url: http://arxiv.org/abs/2007.15841v1
- Date: Fri, 31 Jul 2020 04:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 07:05:46.291686
- Title: Estimating Motion Codes from Demonstration Videos
- Title(参考訳): デモビデオからの動作コードの推定
- Authors: Maxat Alibayev, David Paulius and Yu Sun
- Abstract要約: 運動分類学は、操作をバイナリエンコードされた表現としてエンコードすることができる。
運動符号は、本来は運動の機械的特徴を記述する組込み空間における操作動作を表す。
本稿では,非教師付き方式でデモビデオから動作コードを抽出する深層学習パイプラインを開発する。
- 参考スコア(独自算出の注目度): 8.651301326454496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A motion taxonomy can encode manipulations as a binary-encoded
representation, which we refer to as motion codes. These motion codes innately
represent a manipulation action in an embedded space that describes the
motion's mechanical features, including contact and trajectory type. The key
advantage of using motion codes for embedding is that motions can be more
appropriately defined with robotic-relevant features, and their distances can
be more reasonably measured using these motion features. In this paper, we
develop a deep learning pipeline to extract motion codes from demonstration
videos in an unsupervised manner so that knowledge from these videos can be
properly represented and used for robots. Our evaluations show that motion
codes can be extracted from demonstrations of action in the EPIC-KITCHENS
dataset.
- Abstract(参考訳): 運動分類学は、操作をバイナリ符号化された表現としてエンコードすることができる。
これらの動き符号は、接触や軌道タイプを含む動きの機械的特徴を記述する埋め込み空間における操作動作を本質的に表わす。
埋め込みにモーションコードを使用する主な利点は、動きをロボット関連の特徴でより適切に定義でき、それらの距離をこれらの動き特徴を用いてより合理的に測定できることである。
本稿では,実演ビデオから動作コードを教師なしで抽出する深層学習パイプラインを開発し,その知識をロボットに適切に表現し,活用する。
評価の結果,EPIC-KITCHENSデータセットにおける動作のデモから動作符号を抽出できることが示唆された。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - Moto: Latent Motion Token as the Bridging Language for Robot Manipulation [66.18557528695924]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Motion Transformer for Unsupervised Image Animation [37.35527776043379]
画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:04:58Z) - Hierarchical Motion Understanding via Motion Programs [23.288517329229943]
動作を高レベルプリミティブの構成として表現する,ニューロシンボリックなプログラムライクな表現であるモーションプログラムを紹介する。
また,人間の動画から自動的に動作プログラムを誘導し,映像合成における動作プログラムを活用するシステムを提案する。
私たちの表現は、ビデオやビデオの予測といった下流のタスクにも役立ち、既成モデルよりも優れています。
論文 参考訳(メタデータ) (2021-04-22T17:49:59Z) - AMP: Adversarial Motion Priors for Stylized Physics-Based Character
Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。
キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。
キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。
本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文 参考訳(メタデータ) (2021-04-05T22:43:14Z) - Character Controllers Using Motion VAEs [9.806910643086045]
動きのvaesを用いて,人間の運動のデータ駆動生成モデルを学ぶ。
計画や制御アルゴリズムは、このアクション空間を使って望ましい動きを生成することができる。
論文 参考訳(メタデータ) (2021-03-26T05:51:41Z) - Developing Motion Code Embedding for Action Recognition in Videos [5.400294730456784]
動きのベクトル化表現である動き符号(motion codes)と呼ばれる動き埋め込み戦略を提案する。
我々は、視覚的特徴と意味的特徴を組み合わせたディープニューラルネットワークモデルを開発し、運動分類学で見られる特徴を特定し、動画をモーションコードに埋め込みました。
機械学習タスクの機能としての動作符号の可能性を示すために,抽出した特徴を現在の動作認識モデルに統合した。
論文 参考訳(メタデータ) (2020-12-10T03:49:23Z) - A Motion Taxonomy for Manipulation Embedding [8.651301326454496]
本稿では,運動分類学を用いた動作埋め込みについて検討する。
モーションコードは、接触型や軌道のような機械的特性を捉えている。
動作符号は操作の現実と密に一致した距離を保っていることを示す。
論文 参考訳(メタデータ) (2020-07-13T21:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。