論文の概要: MARRS: Masked Autoregressive Unit-based Reaction Synthesis
- arxiv url: http://arxiv.org/abs/2505.11334v2
- Date: Wed, 06 Aug 2025 12:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:08.605413
- Title: MARRS: Masked Autoregressive Unit-based Reaction Synthesis
- Title(参考訳): MARRS:Masked Autoregressive Unit-based Reaction Synthesis
- Authors: Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu,
- Abstract要約: 本研究の目的は、人間の行動反応合成、すなわち、他人の行動系列に条件付けられた人間の反応を生成することである。
連続表現を用いた協調的および微粒な反応運動を生成するための新しいフレームワークであるMARRSを提案する。
- 参考スコア(独自算出の注目度): 32.435588325199824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims at a challenging task: human action-reaction synthesis, i.e., generating human reactions conditioned on the action sequence of another person. Currently, autoregressive modeling approaches with vector quantization (VQ) have achieved remarkable performance in motion generation tasks. However, VQ has inherent disadvantages, including quantization information loss, low codebook utilization, etc. In addition, while dividing the body into separate units can be beneficial, the computational complexity needs to be considered. Also, the importance of mutual perception among units is often neglected. In this work, we propose MARRS, a novel framework designed to generate coordinated and fine-grained reaction motions using continuous representations. Initially, we present the Unit-distinguished Motion Variational AutoEncoder (UD-VAE), which segments the entire body into distinct body and hand units, encoding each independently. Subsequently, we propose Action-Conditioned Fusion (ACF), which involves randomly masking a subset of reactive tokens and extracting specific information about the body and hands from the active tokens. Furthermore, we introduce Adaptive Unit Modulation (AUM) to facilitate interaction between body and hand units by using the information from one unit to adaptively modulate the other. Finally, for the diffusion model, we employ a compact MLP as a noise predictor for each distinct body unit and incorporate the diffusion loss to model the probability distribution of each token. Both quantitative and qualitative results demonstrate that our method achieves superior performance. The code will be released upon acceptance.
- Abstract(参考訳): 本研究の目的は、人間の行動反応合成、すなわち、他人の行動系列に条件付けられた人間の反応を生成することである。
現在、ベクトル量子化(VQ)を用いた自己回帰モデリング手法は、運動生成タスクにおいて顕著な性能を達成している。
しかしながら、VQには、量子化情報損失、コードブックの利用率の低下など、固有の欠点がある。
さらに、身体を別々の単位に分けることは有益であるが、計算の複雑さを考慮する必要がある。
また、単位間の相互認識の重要性は無視されることが多い。
本研究では,連続表現を用いた協調的および微粒な反応運動を生成するための新しいフレームワークであるMARRSを提案する。
最初は、身体全体を別個の身体単位と手称単位に分割し、それぞれを独立して符号化するユニット別動作変分自動エンコーダ(UD-VAE)を提示する。
その後、反応トークンのサブセットをランダムにマスキングし、活性トークンから身体と手に関する特定の情報を抽出するアクション・コンディションド・フュージョン(ACF)を提案する。
さらに,AUM(Adaptive Unit Modulation)を導入し,一方のユニットからの情報を用いて他方のユニットを適応的に調整することで,体と手との対話を容易にする。
最後に、拡散モデルにおいて、各異なるボディユニットのノイズ予測器としてコンパクトなMLPを用い、拡散損失を各トークンの確率分布をモデル化する。
定量的および定性的な結果の両方が,本手法が優れた性能を発揮することを示す。
コードは受理時にリリースされます。
関連論文リスト
- ARFlow: Human Action-Reaction Flow Matching with Physical Guidance [34.33083853308399]
Action-Reaction Flow Matchingは、直接アクションから反応へのマッピングを確立する新しいフレームワークである。
提案手法では,速度場ではなく人体の動きを直接出力するx1-prediction法と,サンプリング中の身体の侵入を効果的に防止するトレーニング不要で勾配に基づく物理的誘導機構を導入する。
論文 参考訳(メタデータ) (2025-03-21T09:41:24Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation [27.206656215734295]
本稿では,DVQ-VAE(Decomposed Vector-Quantized Variational Autoencoder)を提案する。
部分認識の分解アーキテクチャは、手とオブジェクトの各コンポーネント間のインタラクションをより正確に管理するのに役立つ。
提案モデルでは,4つのベンチマークにおいて,最先端の手法と比較して,品質指標の14.1%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-07-19T06:41:16Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。
筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文 参考訳(メタデータ) (2024-05-24T17:57:57Z) - Shape Conditioned Human Motion Generation with Diffusion Model [0.0]
本研究では,メッシュ形式での運動系列生成を可能にする形状条件付き運動拡散モデル(SMD)を提案する。
また、スペクトル領域内の時間的依存関係を活用するためのスペクトル・テンポラルオートエンコーダ(STAE)を提案する。
論文 参考訳(メタデータ) (2024-05-10T19:06:41Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Dynamic Tensor Decomposition via Neural Diffusion-Reaction Processes [24.723536390322582]
テンソル分解は マルチウェイデータ解析の 重要なツールです
動的EMbedIngs fOr Dynamic Algorithm dEcomposition (DEMOTE)を提案する。
シミュレーション研究と実世界の応用の両方において,本手法の利点を示す。
論文 参考訳(メタデータ) (2023-10-30T15:49:45Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Action-Conditioned 3D Human Motion Synthesis with Transformer VAE [44.523477804533364]
我々は、現実的で多様な人間の動き系列の行動条件生成の問題に取り組む。
動作シーケンスを完了または拡張する手法とは対照的に、このタスクは初期ポーズやシーケンスを必要としない。
生成的変分オートエンコーダを訓練することにより、人間の動きに対する行動認識の潜在表現を学ぶ。
論文 参考訳(メタデータ) (2021-04-12T17:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。