Fugu-MT 論文翻訳(概要): BAMM: Bidirectional Autoregressive Motion Model

論文の概要: BAMM: Bidirectional Autoregressive Motion Model

arxiv url: http://arxiv.org/abs/2403.19435v3
Date: Mon, 1 Apr 2024 13:02:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 13:25:26.471950
Title: BAMM: Bidirectional Autoregressive Motion Model
Title（参考訳）: BAMM:双方向自己回帰運動モデル
Authors: Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen,
Abstract要約: Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。 BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
参考スコア（独自算出の注目度）: 14.668729995275807
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating human motion from text has been dominated by denoising motion models either through diffusion or generative masking process. However, these models face great limitations in usability by requiring prior knowledge of the motion length. Conversely, autoregressive motion models address this limitation by adaptively predicting motion endpoints, at the cost of degraded generation quality and editing capabilities. To address these challenges, we propose Bidirectional Autoregressive Motion Model (BAMM), a novel text-to-motion generation framework. BAMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into discrete tokens in latent space, and (2) a masked self-attention transformer that autoregressively predicts randomly masked tokens via a hybrid attention masking strategy. By unifying generative masked modeling and autoregressive modeling, BAMM captures rich and bidirectional dependencies among motion tokens, while learning the probabilistic mapping from textual inputs to motion outputs with dynamically-adjusted motion sequence length. This feature enables BAMM to simultaneously achieving high-quality motion generation with enhanced usability and built-in motion editability. Extensive experiments on HumanML3D and KIT-ML datasets demonstrate that BAMM surpasses current state-of-the-art methods in both qualitative and quantitative measures. Our project page is available at https://exitudio.github.io/BAMM-page
Abstract（参考訳）: テキストから人間の動きを生成することは、拡散または生成マスキングのプロセスを通じて、動きモデルを認知させることによって支配されている。しかし、これらのモデルは、運動長に関する事前の知識を必要とすることによって、ユーザビリティに大きな制限に直面している。逆に、自己回帰運動モデルは、劣化した生成品質と編集能力を犠牲にして、動きの終端を適応的に予測することで、この制限に対処する。これらの課題に対処するために,新たなテキスト・ツー・モーション生成フレームワークである双方向自動回帰運動モデル(BAMM)を提案する。 BAMMは,(1)3次元の人間の動きを潜在空間の離散トークンに変換するモーション・トークンライザ,(2)ハイブリット・アテンション・マスキング戦略によってランダムにマスクされたトークンを自動予測するマスキング・セルフアテンション・トランスフォーマーの2つの重要な構成要素から構成される。生成マスクモデリングと自己回帰モデリングを統一することにより、BAMMはモーショントークン間のリッチで双方向な依存関係をキャプチャし、テキスト入力から動的に調整されたモーションシーケンス長のモーション出力への確率的マッピングを学習する。この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。 HumanML3DとKIT-MLデータセットの大規模な実験により、BAMMは定性的および定量的な測定において現在の最先端の手法を超越していることが示された。私たちのプロジェクトページはhttps://exitudio.github.io/BAMM-pageで公開されています。

関連論文リスト

ReMoMask: Retrieval-Augmented Masked Motion Generation [8.471755159366221]
Text-to-Motion (T2M) の生成は、自然言語記述から現実的で意味的に整合した人間の動作シーケンスを合成することを目的としている。 3つの重要なイノベーションを統合する統合フレームワークであるReMoMaskを提案する。双方向Momentum Text-Motion Modelは、モーメントキューを介してバッチサイズから負のサンプルスケールを分離し、クロスモーダル検索精度を大幅に改善する。 Semantic Spatio-temporal Attentionメカニズムは、非同期アーティファクトを排除するために、部分レベル融合中の生体力学的制約を強制する。
論文参考訳（メタデータ） (2025-08-04T16:56:35Z)
M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。 M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-11T04:48:12Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Motion Anything: Any to Motion Generation [24.769413146731264]
Motion Anythingはマルチモーダルモーション生成フレームワークである。我々のモデルは、テキストや音楽を含む多モード条件を適応的に符号化し、制御性を向上させる。 Text-Music-Danceデータセットは2,153対のテキスト、音楽、ダンスで構成されており、AIST++の2倍の大きさである。
論文参考訳（メタデータ） (2025-03-10T06:04:31Z)
Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-02T16:06:16Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文参考訳（メタデータ） (2024-09-29T12:26:24Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文参考訳（メタデータ） (2024-05-24T11:12:37Z)
MotionMix: Weakly-Supervised Diffusion for Controllable Motion Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2024-01-20T04:58:06Z)
Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文参考訳（メタデータ） (2023-12-14T12:57:35Z)
MMM: Generative Masked Motion Model [10.215003912084944]
MMM は Masked Motion Model に基づく,比較的単純なモーション生成パラダイムである。あらゆる方向に動きやテキストトークンに参加することで、MMMはモーショントークンとテキストトークン間のセマンティックマッピングの間に固有の依存関係をキャプチャする。 MMMは、編集可能なモーション拡散モデルよりも1つの中距離GPUで2桁高速である。
論文参考訳（メタデータ） (2023-12-06T16:35:59Z)
MoMask: Generative Masked Modeling of 3D Human Motions [25.168781728071046]
MoMaskはテキスト駆動型3Dモーション生成のための新しいフレームワークである。階層的な量子化スキームは、人間の動きを離散的な動きトークンとして表現するために用いられる。 MoMaskは、テキスト・ツー・モーション生成タスクにおける最先端メソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-29T19:04:10Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。