論文の概要: PianoFlow: Music-Aware Streaming Piano Motion Generation with Bimanual Coordination
- arxiv url: http://arxiv.org/abs/2604.12856v2
- Date: Wed, 15 Apr 2026 03:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.537674
- Title: PianoFlow: Music-Aware Streaming Piano Motion Generation with Bimanual Coordination
- Title(参考訳): PianoFlow: 双方向コーディネーションによる音楽用ストリーミングピアノモーション生成
- Authors: Xuan Wang, Kai Ruan, Jiayi Han, Kaiyue Zhou, Gaoang Wang,
- Abstract要約: バイマニュアルピアノの動作生成には、複雑な音楽構造と動的クロスハンド調整の正確なモデリングが必要である。
ピアノ運動合成の精度とコーディネートのためのフローマッチングフレームワークであるピアノフローを提案する。
提案手法は,MIDIを訓練における特権的モダリティとして戦略的に活用し,これらの構造化音楽の先行音を蒸留することにより,深い意味理解を実現する。
- 参考スコア(独自算出の注目度): 31.224933689911186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-driven bimanual piano motion generation requires precise modeling of complex musical structures and dynamic cross-hand coordination. However, existing methods often rely on acoustic-only representations lacking symbolic priors, employ inflexible interaction mechanisms, and are limited to computationally expensive short-sequence generation. To address these limitations, we propose PianoFlow, a flow-matching framework for precise and coordinated bimanual piano motion synthesis. Our approach strategically leverages MIDI as a privileged modality during training, distilling these structured musical priors to achieve deep semantic understanding while maintaining audio-only inference. Furthermore, we introduce an asymmetric role-gated interaction module to explicitly capture dynamic cross-hand coordination through role-aware attention and temporal gating. To enable real-time streaming generation for arbitrarily long sequences, we design an autoregressive flow continuation scheme that ensures seamless cross-chunk temporal coherence. Extensive experiments on the PianoMotion10M dataset demonstrate that PianoFlow achieves superior quantitative and qualitative performance, while accelerating inference by over 9\times compared to previous methods.
- Abstract(参考訳): オーディオ駆動のバイマニュアルピアノモーション生成は、複雑な音楽構造と動的クロスハンドコーディネートを正確にモデル化する必要がある。
しかし、既存の手法は、しばしば記号的先行性に欠ける音響のみの表現に依存し、非フレキシブルな相互作用機構を採用し、計算コストのかかる短列生成に限られる。
これらの制約に対処するため,我々は,高精度かつ協調的なピアノ動作合成のためのフローマッチングフレームワークであるPianoFlowを提案する。
提案手法は,MIDIを学習時の特権的モダリティとして戦略的に活用し,これらの構造化音楽先行音を蒸留することにより,音声のみの推論を維持しながら深い意味理解を実現する。
さらに,非対称なロールゲート・インタラクション・モジュールを導入し,役割認識と時間的ゲーティングを通じて動的クロスハンドコーディネーションを明示的にキャプチャする。
任意に長いシーケンスに対してリアルタイムなストリーミング生成を可能にするために,シームレスなクロスチャンク時間的コヒーレンスを保証する自己回帰フロー継続方式を設計する。
PianoMotion10Mデータセットの大規模な実験により、PianoFlowはより優れた量的および定性的なパフォーマンスを達成し、従来の手法と比較して9倍以上の推論を加速した。
関連論文リスト
- ActionPlan: Future-Aware Streaming Motion Synthesis via Frame-Level Action Planning [32.581163427518185]
ActionPlanは、単一のモデル内で高品質なオフライン生成でリアルタイムストリーミングをブリッジする。
リアルタイムストリーミングは5.25倍高速であり, 従来の手法に比べて18%の動作品質向上を実現している。
論文 参考訳(メタデータ) (2026-03-13T18:24:32Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-free Melody Guidance [16.462715982402884]
SVS(Singing Voice Synthesis)は、音素レベルの正確なアライメントに強く依存しているため、実際の展開には制約が残っている。
メロディに追従した任意の歌詞を合成できるメロディ駆動のSVSフレームワークを提案する。
提案手法は,Diffusion Transformer (DiT) アーキテクチャ上に構築され,メロディ抽出モジュールに拡張されている。
論文 参考訳(メタデータ) (2025-12-04T13:25:33Z) - Planning with Sketch-Guided Verification for Physics-Aware Video Generation [71.29706409814324]
そこで我々は,SketchVerifyを,ビデオ生成のためのトレーニングフリーでスケッチ検証ベースの計画フレームワークとして提案する。
提案手法は,複数の候補動きプランを予測し,視覚言語検証器を用いてランク付けする。
我々は、満足なものが特定されるまで運動計画を反復的に洗練し、最終的な合成のために軌道条件付きジェネレータに渡される。
論文 参考訳(メタデータ) (2025-11-21T17:48:02Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation [10.203209816178552]
MotionRAG-Diffは、Retrieval-Augmented Generationと拡散に基づく改善を統合するハイブリッドフレームワークである。
我々の手法は3つの中核的な革新をもたらす。
動作品質、多様性、音楽-モーション同期の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-03T09:12:48Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - PANDORA: Diffusion Policy Learning for Dexterous Robotic Piano Playing [7.026712993513959]
本稿では,ロボットピアノ演奏のための新しい拡散型ポリシー学習フレームワークであるPANDORAについて述べる。
提案手法では,FILMに基づくグローバルコンディショニングにより拡張された条件付きU-Netアーキテクチャを用いて,ノイズの多い動作シーケンスをスムーズな高次元トラジェクトリに繰り返し分解する。
本研究では,タスク固有精度,音声の忠実度,および大規模言語モデル(LLM)オラクルからの高レベルな意味フィードバックを組み込んだ複合報酬関数を設計する。
論文 参考訳(メタデータ) (2025-03-17T17:22:34Z) - Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization [19.27890803128116]
自動マルチトラック音楽アレンジメントのための統合フレームワークを提案する。
中心となるのは、トークンレベルのアンタングルされたコンテンツとスタイルで動作するセグメントレベルの再構築目標である。
トラックワイズ・モデリングを支援するため,マルチトラック・シンボリック・ミュージックのための構造化トークン化手法であるREMI-zを導入する。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。