論文の概要: BiTDiff: Fine-Grained 3D Conducting Motion Generation via BiMamba-Transformer Diffusion
- arxiv url: http://arxiv.org/abs/2604.04395v1
- Date: Mon, 06 Apr 2026 03:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.081495
- Title: BiTDiff: Fine-Grained 3D Conducting Motion Generation via BiMamba-Transformer Diffusion
- Title(参考訳): BiTDiff:BiMamba-Transformer拡散による微細3次元導電運動生成
- Authors: Tianzhi Jia, Kaixing Yang, Xiaole Yang, Xulong Tang, Ke Qiu, Shikui Wei, Yao Zhao,
- Abstract要約: BiTDiffは、BiMamba-Transformerハイブリッドモデルアーキテクチャ上に構築された3次元動作生成のための新しいフレームワークである。
BiTDiffはCM-Dataデータセット上での3次元動作生成のための最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 49.503279511274435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D conducting motion generation aims to synthesize fine-grained conductor motions from music, with broad potential in music education, virtual performance, digital human animation, and human-AI co-creation. However, this task remains underexplored due to two major challenges: (1) the lack of large-scale fine-grained 3D conducting datasets and (2) the absence of effective methods that can jointly support long-sequence generation with high quality and efficiency. To address the data limitation, we develop a quality-oriented 3D conducting motion collection pipeline and construct CM-Data, a fine-grained SMPL-X dataset with about 10 hours of conducting motion data. To the best of our knowledge, CM-Data is the first and largest public dataset for 3D conducting motion generation. To address the methodological limitation, we propose BiTDiff, a novel framework for 3D conducting motion generation, built upon a BiMamba-Transformer hybrid model architecture for efficient long-sequence modeling and a Diffusion-based generative strategy with human-kinematic decomposition for high-quality motion synthesis. Specifically, BiTDiff introduces auxiliary physical-consistency losses and a hand-/body-specific forward-kinematics design for better fine-grained motion modeling, while leveraging BiMamba for memory-efficient long-sequence temporal modeling and Transformer for cross-modal semantic alignment. In addition, BiTDiff supports training-free joint-level motion editing, enabling downstream human-AI interaction design. Extensive quantitative and qualitative experiments demonstrate that BiTDiff achieves state-of-the-art (SOTA) performance for 3D conducting motion generation on the CM-Data dataset. Code will be available upon acceptance.
- Abstract(参考訳): 3D導電運動生成は、音楽教育、バーチャルパフォーマンス、デジタルヒューマンアニメーション、人間とAIの共創において幅広い可能性を持つ、音楽から微細な導電運動を合成することを目的としている。
しかし, この課題は, 1) 大規模3次元導電性データセットの欠如, (2) 高品質で効率の良い長周期生成を共同で支援できる効果的な手法の欠如, という2つの大きな課題により, 未解決のまま残っている。
データ制限に対処するため,約10時間の動作データを含む細粒度SMPL-XデータセットであるCM-Dataを構築し,品質指向の3次元動作収集パイプラインを構築した。
我々の知る限り、CM-Dataは3D動作生成のための最初の、そして最大の公開データセットである。
提案手法は,効率的な長周期モデリングのためのBiMamba-Transformerハイブリッドモデルアーキテクチャと,高品位な動き合成のための人間-運動論的分解を用いた拡散型生成戦略を基盤とした,3次元動作生成のための新しいフレームワークであるBiTDiffを提案する。
具体的には、BiTDiffは、メモリ効率のよい長時間時間モデリングにBiMambaを、クロスモーダルなセマンティックアライメントにTransformerを活用しながら、補助的な物理的整合性損失と手動/体特異的フォワードキネマティクス設計を導入している。
さらに、BiTDiffはトレーニング不要のジョイントレベルのモーション編集をサポートし、下流の人間とAIのインタラクション設計を可能にする。
CM-Dataデータセット上での3次元動作生成において,BiTDiffがSOTA(State-of-the-art)性能を達成することを示す。
コードは受理後利用可能になる。
関連論文リスト
- MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - HY-Motion 1.0: Scaling Flow Matching Models for Text-To-Motion Generation [63.04826523091837]
HY-Motion 1.0は、テキスト記述から人間の3D動作を生成することができる最先端の大規模モーション生成モデルである。
3000時間以上のモーションデータに対する大規模な事前トレーニングを含む、包括的なフルステージトレーニングパラダイムを導入します。
我々のモデルは6つの主要なクラスで200以上の運動カテゴリにまたがる、最も広範なカバレッジを実現している。
論文 参考訳(メタデータ) (2025-12-29T13:46:24Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - Waymo-3DSkelMo: A Multi-Agent 3D Skeletal Motion Dataset for Pedestrian Interaction Modeling in Autonomous Driving [14.206170348283816]
3DSkelMoは、明示的な相互作用意味を持つ高品質で時間的に整合した3D骨格運動を提供する最初の大規模データセットである。
データセットは、800以上の実走行シナリオで14,000秒以上をカバーしている。
論文 参考訳(メタデータ) (2025-08-13T00:39:56Z) - GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM(3))は、統合された動き表現を学習するための包括的なフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM(3)はHumanML3Dベンチマークで0.035の最先端のFIDを達成し、最先端のメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-03-19T05:56:52Z) - Realistic Human Motion Generation with Cross-Diffusion Models [30.854425772128568]
クロスヒューマンモーション拡散モデル(クロスディフ)
拡散モデルのトレーニングでは,共有変圧器ネットワークを用いて3次元情報と2次元情報を統合する。
CrossDiffは、両方の表現の強みを効果的に組み合わせて、より現実的なモーションシーケンスを生成する。
論文 参考訳(メタデータ) (2023-12-18T07:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。