論文の概要: Dyadic Mamba: Long-term Dyadic Human Motion Synthesis
- arxiv url: http://arxiv.org/abs/2505.09827v1
- Date: Wed, 14 May 2025 22:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.123122
- Title: Dyadic Mamba: Long-term Dyadic Human Motion Synthesis
- Title(参考訳): Dyadic Mamba:長期のDyadic Human Motion Synthesis
- Authors: Julian Tanke, Takashi Shibuya, Kengo Uchida, Koichi Saito, Yuki Mitsufuji,
- Abstract要約: 任意の長さのハイクオリティな人間の動きを生成する新しいアプローチであるDyadic Mambaを紹介する。
本手法は,個々の動き列間の情報の流れを簡易かつ効果的に制御するアーキテクチャを用いている。
本稿では,長期動作の合成品質を評価するための新しいベンチマークを提案し,将来の研究のための標準化されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 14.409918076336462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic dyadic human motion from text descriptions presents significant challenges, particularly for extended interactions that exceed typical training sequence lengths. While recent transformer-based approaches have shown promising results for short-term dyadic motion synthesis, they struggle with longer sequences due to inherent limitations in positional encoding schemes. In this paper, we introduce Dyadic Mamba, a novel approach that leverages State-Space Models (SSMs) to generate high-quality dyadic human motion of arbitrary length. Our method employs a simple yet effective architecture that facilitates information flow between individual motion sequences through concatenation, eliminating the need for complex cross-attention mechanisms. We demonstrate that Dyadic Mamba achieves competitive performance on standard short-term benchmarks while significantly outperforming transformer-based approaches on longer sequences. Additionally, we propose a new benchmark for evaluating long-term motion synthesis quality, providing a standardized framework for future research. Our results demonstrate that SSM-based architectures offer a promising direction for addressing the challenging task of long-term dyadic human motion synthesis from text descriptions.
- Abstract(参考訳): テキスト記述からリアルなDyadicの人間の動きを生成することは、特に典型的なトレーニングシーケンス長を超える拡張相互作用において重要な課題を示す。
最近の変圧器に基づくアプローチは、短期的なダイアド運動合成に有望な結果を示しているが、位置符号化スキームに固有の制限があるため、より長いシーケンスに苦慮している。
本稿では,国家空間モデル(SSM)を利用して任意の長さの高品質な人体運動を生成する新しいアプローチであるDyadic Mambaを紹介する。
本手法では,複雑なクロスアテンション機構の必要をなくし,結合によって個々の動き列間の情報の流れを容易にする,シンプルで効果的なアーキテクチャを用いる。
我々は、Dyadic Mambaが、標準的な短期ベンチマークで競合性能を達成しつつ、より長いシーケンスでのトランスフォーマーベースのアプローチを大幅に上回っていることを示す。
さらに, 長期動作の合成品質を評価するための新しいベンチマークを提案し, 将来の研究のための標準フレームワークを提供する。
以上の結果から,SSMをベースとしたアーキテクチャは,テキスト記述からの人間の長期的動作合成の課題に対処する上で,有望な方向性を提供することを示す。
関連論文リスト
- Length-Aware Motion Synthesis via Latent Diffusion [7.53305437064932]
そこで本研究では,テキスト記述子から長さ認識型3次元人間の動作系列を生成する問題について紹介する。
可変目標長の運動を合成する新しいモデルを提案し,これをLength-Aware Latent Diffusion (LADiff) と呼ぶ。
LADiff は新しい2つのモジュールから構成される: 1) 長さ依存の潜伏符号を用いた動き表現を学習する長さ認識変分自動エンコーダ; 2) 所望の目標列長とともに増加する細部豊かな動きを生成する長さ変換潜伏拡散モデル。
論文 参考訳(メタデータ) (2024-07-16T09:30:57Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models [22.044020889631188]
マルチモーダル統合によるジェスチャーの多様性とリズムを向上させるMambaTalkを紹介する。
我々の手法は最先端のモデルの性能と一致するか超えている。
論文 参考訳(メタデータ) (2024-03-14T15:10:54Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。