論文の概要: MARRS: Masked Autoregressive Unit-based Reaction Synthesis
- arxiv url: http://arxiv.org/abs/2505.11334v1
- Date: Fri, 16 May 2025 15:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.370784
- Title: MARRS: Masked Autoregressive Unit-based Reaction Synthesis
- Title(参考訳): MARRS:Masked Autoregressive Unit-based Reaction Synthesis
- Authors: Y. B. Wang, S Wang, J. N. Zhang, J. F. Wu, Q. D. He, C. C. Fu, C. J. Wang, Y. Liu,
- Abstract要約: この研究は、人間の行動-反応合成、すなわち、相手の行動シーケンスを条件として人間の反応を生成するという、困難な課題を目標にしている。
連続表現における協調的およびきめ細かい反応運動を生成するための新しいフレームワークであるMARRSを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims at a challenging task: human action-reaction synthesis, i.e., generating human reactions based on the action sequence of the other as conditions. Currently, autoregressive modeling approaches have achieved remarkable performance in motion generation tasks, e.g. text-to-motion. However, vector quantization (VQ) accompanying autoregressive generation has inherent disadvantages, including loss of quantization information, low codebook utilization, etc. Moreover, unlike text-to-motion, which focuses solely on the movement of body joints, human action-reaction synthesis also encompasses fine-grained hand movements. In this work, we propose MARRS, a novel framework designed to generate coordinated and fine-grained reaction motions in continuous representations. Initially, we present the Unit-distinguished Motion Variational AutoEncoder (UD-VAE), which segments the entire body into distinct body and hand units, encoding them independently. Subsequently, we propose Action-Conditioned Fusion (ACF), which involves randomly masking a subset of reactive tokens and extracting specific information about the body and hands from the active tokens. Furthermore, we introduce Adaptive Unit Modulation (AUM) to facilitate interaction between body and hand units by using the information from one unit to adaptively modulate the other. Finally, for the diffusion model, we employ a compact MLP as a noise predictor for each distinct body unit and incorporate the diffusion loss to model the probability distribution of each token. Quantitative and qualitative results demonstrate that our method achieves superior performance. The code will be released upon acceptance.
- Abstract(参考訳): この研究は、人間の行動-反応合成、すなわち、相手の行動シーケンスを条件として人間の反応を生成するという、困難な課題を目標にしている。
現在、自動回帰モデリング手法は、例えばテキスト・トゥ・モーションのような運動生成タスクにおいて顕著な性能を達成している。
しかし、自己回帰生成に伴うベクトル量子化(VQ)には、量子化情報の喪失、コードブックの利用率の低下など固有の欠点がある。
さらに、身体関節の動きのみに焦点を絞ったテキスト・トゥ・ムーブメントとは異なり、人間のアクション・リアクション・シンセサイザーはきめ細かい手の動きも含む。
本研究では,連続表現における協調的かつきめ細かな反応運動を生成するための新しいフレームワークであるMARRSを提案する。
最初は、身体全体を別個の身体単位と手称単位に分割し、それらを独立して符号化するユニット別動作変分自動エンコーダ(UD-VAE)を提示する。
その後、反応トークンのサブセットをランダムにマスキングし、活性トークンから身体と手に関する特定の情報を抽出するアクション・コンディションド・フュージョン(ACF)を提案する。
さらに,AUM(Adaptive Unit Modulation)を導入し,一方のユニットからの情報を用いて他方のユニットを適応的に調整することで,体と手との対話を容易にする。
最後に、拡散モデルにおいて、各異なるボディユニットのノイズ予測器としてコンパクトなMLPを用い、拡散損失を各トークンの確率分布をモデル化する。
定量的および定性的な結果は,本手法が優れた性能を発揮することを示す。
コードは受理時にリリースされます。
関連論文リスト
- ARFlow: Human Action-Reaction Flow Matching with Physical Guidance [34.33083853308399]
Action-Reaction Flow Matchingは、直接アクションから反応へのマッピングを確立する新しいフレームワークである。
提案手法では,速度場ではなく人体の動きを直接出力するx1-prediction法と,サンプリング中の身体の侵入を効果的に防止するトレーニング不要で勾配に基づく物理的誘導機構を導入する。
論文 参考訳(メタデータ) (2025-03-21T09:41:24Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。