論文の概要: Separate to Collaborate: Dual-Stream Diffusion Model for Coordinated Piano Hand Motion Synthesis
- arxiv url: http://arxiv.org/abs/2504.09885v1
- Date: Mon, 14 Apr 2025 05:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:07.434238
- Title: Separate to Collaborate: Dual-Stream Diffusion Model for Coordinated Piano Hand Motion Synthesis
- Title(参考訳): コラボレート分離:協調ピアノハンドモーション合成のためのデュアルストリーム拡散モデル
- Authors: Zihao Liu, Mingwen Ou, Zunnan Xu, Jiaqi Huang, Haonan Han, Ronghui Li, Xiu Li,
- Abstract要約: 音声入力からピアノ演奏のための同期手ジェスチャーを生成するためのデュアルストリームニューラルフレームワークを提案する。
ハンドコーディネートな非対称アテンション機構は、非対称な手特有の特徴を強調するために対称(共通モード)ノイズを抑制する。
- 参考スコア(独自算出の注目度): 20.922897975281316
- License:
- Abstract: Automating the synthesis of coordinated bimanual piano performances poses significant challenges, particularly in capturing the intricate choreography between the hands while preserving their distinct kinematic signatures. In this paper, we propose a dual-stream neural framework designed to generate synchronized hand gestures for piano playing from audio input, addressing the critical challenge of modeling both hand independence and coordination. Our framework introduces two key innovations: (i) a decoupled diffusion-based generation framework that independently models each hand's motion via dual-noise initialization, sampling distinct latent noise for each while leveraging a shared positional condition, and (ii) a Hand-Coordinated Asymmetric Attention (HCAA) mechanism suppresses symmetric (common-mode) noise to highlight asymmetric hand-specific features, while adaptively enhancing inter-hand coordination during denoising. The system operates hierarchically: it first predicts 3D hand positions from audio features and then generates joint angles through position-aware diffusion models, where parallel denoising streams interact via HCAA. Comprehensive evaluations demonstrate that our framework outperforms existing state-of-the-art methods across multiple metrics.
- Abstract(参考訳): コーディネートされたバイマニュアルピアノ演奏の合成を自動化することは、特に手間の複雑な振付を捉えながら、独自のキネマティックなシグネチャを保ちながら重要な課題となる。
本稿では,ピアノ演奏の同期動作を音声入力から生成し,手独立と協調の両面をモデル化する上で重要な課題に対処する2重ストリームニューラルネットワークを提案する。
私たちのフレームワークには2つの重要なイノベーションがあります。
一 二重雑音初期化により各手の動きを独立にモデル化し、共有位置条件を利用してそれぞれ別個の潜音をサンプリングする非結合拡散ベース生成フレームワーク
(II)手指協調型非対称注意(HCAA)機構は,非対称な手指特徴を強調するために対称雑音(共通モード)を抑制するとともに,手指間協調を適応的に強化する。
システムは階層的に動作し、まず音声の特徴から3Dの手の位置を予測し、次に位置認識拡散モデルを通じて関節角を生成する。
包括的評価は、我々のフレームワークが既存の最先端メソッドを複数のメトリクスで上回っていることを示している。
関連論文リスト
- Radio Frequency Signal based Human Silhouette Segmentation: A Sequential Diffusion Approach [26.987963024941635]
高品質セグメンテーションを共同で合成するための2段階連続拡散モデル(SDM)を提案する。
クロスビューブロックは、拡散モデルをマルチスケールで導くために考案された。
時間ブロックはフレームレベルのモデルを微調整して、周波数時間コンテキストとモーションダイナミクスを組み込むように設計されている。
論文 参考訳(メタデータ) (2024-07-27T12:44:21Z) - InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - 3D Hand Reconstruction via Aggregating Intra and Inter Graphs Guided by
Prior Knowledge for Hand-Object Interaction Scenario [8.364378460776832]
モデルベースおよびモデルフリーアプローチの利点を生かした3次元ハンドリコンストラクションネットワークを提案する。
まず,2次元関節から直接のMANOポーズパラメータ回帰モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-04T05:11:26Z) - Collaboratively Self-supervised Video Representation Learning for Action Recognition [54.92120002380786]
我々は,行動認識に特化した協調的自己指導型ビデオ表現学習フレームワークを設計する。
提案手法は,複数の人気ビデオデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-15T10:42:04Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。
暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。
また, 関節間の関係を学習するために, 隣接変調を用いた。
論文 参考訳(メタデータ) (2023-08-29T14:00:55Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - A Non-Anatomical Graph Structure for isolated hand gesture separation in
continuous gesture sequences [42.20687552354674]
我々はGCNモデルを提案し、それを積み重ねたBi-LSTMとAttentionモジュールと組み合わせて、ビデオストリームの時間情報をプッシュする。
そこで本研究では,3次元手骨の特徴を増強する2層GCNモデルを提案する。
論文 参考訳(メタデータ) (2022-07-15T17:28:52Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows [7.183132975698293]
可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-16T04:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。