論文の概要: AIMusicGuru: Music Assisted Human Pose Correction
- arxiv url: http://arxiv.org/abs/2203.12829v1
- Date: Thu, 24 Mar 2022 03:16:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:40:46.183873
- Title: AIMusicGuru: Music Assisted Human Pose Correction
- Title(参考訳): aimusicguru: 人間のポーズ修正を支援する音楽
- Authors: Snehesh Shrestha, Cornelia Ferm\"uller, Tianyu Huang, Pyone Thant Win,
Adam Zukerman, Chethan M. Parameshwara, Yiannis Aloimonos
- Abstract要約: 生成した音と生成する動きの因果関係を高次に理解する手法を提案する。
音声シグネチャを用いて、正確な人体ポーズ動作モデルを洗練し、予測する。
また,音楽で演奏する3DヴァイオリンのマルチモーダルデータセットMAPdatをオープンソース化した。
- 参考スコア(独自算出の注目度): 8.020211030279686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pose Estimation techniques rely on visual cues available through observations
represented in the form of pixels. But the performance is bounded by the frame
rate of the video and struggles from motion blur, occlusions, and temporal
coherence. This issue is magnified when people are interacting with objects and
instruments, for example playing the violin. Standard approaches for
postprocessing use interpolation and smoothing functions to filter noise and
fill gaps, but they cannot model highly non-linear motion. We present a method
that leverages our understanding of the high degree of a causal relationship
between the sound produced and the motion that produces them. We use the audio
signature to refine and predict accurate human body pose motion models. We
propose MAPnet (Music Assisted Pose network) for generating a fine grain motion
model from sparse input pose sequences but continuous audio. To accelerate
further research in this domain, we also open-source MAPdat, a new multi-modal
dataset of 3D violin playing motion with music. We perform a comparison of
different standard machine learning models and perform analysis on input
modalities, sampling techniques, and audio and motion features. Experiments on
MAPdat suggest multi-modal approaches like ours as a promising direction for
tasks previously approached with visual methods only. Our results show both
qualitatively and quantitatively how audio can be combined with visual
observation to help improve any pose estimation methods.
- Abstract(参考訳): ポーズ推定手法は、ピクセルの形で表現された観察を通して得られる視覚的な手がかりに依存する。
しかし、パフォーマンスはビデオのフレームレートによって制限され、動きのぼやけ、オクルージョン、時間的コヒーレンスに苦しむ。
この問題は、例えばバイオリンを弾くなど、人々が物や楽器と対話しているときに拡大される。
後処理の標準的な手法は、補間と平滑化関数を用いてノイズをフィルタリングしギャップを埋めるが、高非線形運動をモデル化することはできない。
本稿では,生成する音と生成する動きとの因果関係を高い範囲で理解する手法を提案する。
音声シグネチャを用いて、正確な人間のポーズ動作モデルを洗練し、予測する。
粗い入力ポーズ列から連続音声を生成するためのMAPnet(Music Assisted Pose Network)を提案する。
この領域のさらなる研究を加速するために、我々は3dバイオリンを音楽で演奏する新しいマルチモーダルデータセットであるmapdatをオープンソース化した。
我々は、異なる標準機械学習モデルの比較を行い、入力モダリティ、サンプリング技術、オーディオとモーションの特徴の分析を行う。
MAPdatの実験では、以前視覚的手法でのみアプローチされたタスクに対して、我々のようなマルチモーダルアプローチを有望な方向として提案している。
その結果, 定性的かつ定量的に音声と視覚観察を組み合わせることで, ポーズ推定法を改善することができた。
関連論文リスト
- VioPose: Violin Performance 4D Pose Estimation by Hierarchical Audiovisual Inference [7.5565058831496055]
現在の最先端のビジュアルポーズ推定アルゴリズムは、正確なモノクロ4Dポーズを生成するのに苦労している。
階層的にダイナミクスを推定する新しいマルチモーダルネットワークであるVioPoseを提案する。
我々のアーキテクチャは、正確なポーズシーケンスを生成し、正確な動き解析を容易にし、SoTAより優れていることを示す。
論文 参考訳(メタデータ) (2024-11-19T20:57:15Z) - Tracking Everything Everywhere All at Once [111.00807055441028]
ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。
我々はOmniMotionと呼ばれる完全で一貫した動作表現を提案する。
提案手法は,従来の最先端手法よりも定量的にも定性的にも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-06-08T17:59:29Z) - Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion
Models [22.000197530493445]
拡散モデルは、音声と共起する人間の動きを合成するのに適していることを示す。
我々はDiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えてモデリング能力を向上させる。
ジェスチャーとダンス生成の実験により,提案手法が最上位の動作品質を実現することを確認した。
論文 参考訳(メタデータ) (2022-11-17T17:41:00Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Audio2Gestures: Generating Diverse Gestures from Speech Audio with
Conditional Variational Autoencoders [29.658535633701035]
本稿では,一対多の音声-動画像マッピングを明示的にモデル化する条件付き変分オートエンコーダ(VAE)を提案する。
本手法は,最先端の手法よりも現実的で多様な動作を定量的に,質的に生成することを示す。
論文 参考訳(メタデータ) (2021-08-15T11:15:51Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。