論文の概要: InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation
- arxiv url: http://arxiv.org/abs/2407.10061v1
- Date: Sun, 14 Jul 2024 03:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 19:38:33.754011
- Title: InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation
- Title(参考訳): InfiniMotion:Mambaは、任意長動き生成のためのトランスフォーマーのメモリを増強する
- Authors: Zeyu Zhang, Akide Liu, Qi Chen, Feng Chen, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang,
- Abstract要約: 現在の手法では、計算コストが高いため、単一の入力として長い動き列を扱うのに苦労している。
自己回帰フレームワーク内で任意の長さの連続的な動き列を生成する手法であるInfiniMotionを提案する。
約8万フレームの連続した1時間の人間の動きを生成することで、その画期的な能力を強調します。
- 参考スコア(独自算出の注目度): 31.775481455602634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-to-motion generation holds potential for film, gaming, and robotics, yet current methods often prioritize short motion generation, making it challenging to produce long motion sequences effectively: (1) Current methods struggle to handle long motion sequences as a single input due to prohibitively high computational cost; (2) Breaking down the generation of long motion sequences into shorter segments can result in inconsistent transitions and requires interpolation or inpainting, which lacks entire sequence modeling. To solve these challenges, we propose InfiniMotion, a method that generates continuous motion sequences of arbitrary length within an autoregressive framework. We highlight its groundbreaking capability by generating a continuous 1-hour human motion with around 80,000 frames. Specifically, we introduce the Motion Memory Transformer with Bidirectional Mamba Memory, enhancing the transformer's memory to process long motion sequences effectively without overwhelming computational resources. Notably our method achieves over 30% improvement in FID and 6 times longer demonstration compared to previous state-of-the-art methods, showcasing significant advancements in long motion generation. See project webpage: https://steve-zeyu-zhang.github.io/InfiniMotion/
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションは映画・ゲーム・ロボティクスの可能性を秘めているが、現行の手法では、しばしばショートモーション・ジェネレーションを優先しているため、長動きシーケンスを効果的に生成することが困難である。
これらの課題を解決するために,自動回帰フレームワーク内で任意の長さの連続的な動き列を生成するInfiniMotionを提案する。
約8万フレームの連続した1時間の人間の動きを生成することで、その画期的な能力を強調します。
具体的には、双方向のマンバメモリを備えたモーションメモリ変換器を導入し、この変換器のメモリを拡張して、計算資源の過大な負荷を伴わずに長時間の動作シーケンスを効率的に処理する。
特に,本手法は従来の最先端手法と比較して,FIDの30%以上の改善と6倍のデモンストレーションを実現し,長動き発生の著しい進歩を示す。
https://steve-zeyu-zhang.github.io/InfiniMotion/
関連論文リスト
- Lagrangian Motion Fields for Long-term Motion Generation [32.548139921363756]
本稿では,ラグランジアン運動場の概念について紹介する。
各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文 参考訳(メタデータ) (2024-09-03T01:38:06Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - T2LM: Long-Term 3D Human Motion Generation from Multiple Sentences [47.258957770690685]
シーケンシャルデータなしでトレーニングできる連続的な長期生成フレームワークであるT2LMを紹介する。
T2LMは、潜伏ベクトルの列に動きを圧縮するように訓練された1D畳み込みVQVAEと、入力テキストが与えられた潜伏列を予測するTransformerベースのテキストの2つのコンポーネントから構成される。
推論において、文列は遅延ベクトルの連続ストリームに変換される。これはVQVAEデコーダによって復号され、局所的な時間的受容場との1D畳み込みの使用は、トレーニングと生成されたシーケンス間の時間的矛盾を避ける。
論文 参考訳(メタデータ) (2024-06-02T06:44:35Z) - Motion Mamba: Efficient and Long Sequence Motion Generation [26.777455596989526]
状態空間モデル(SSM)の最近の進歩は、長いシーケンスモデリングにおいてかなりの可能性を秘めている。
我々は,SSMを用いた先駆的な動き生成モデルを示す,シンプルで効率的な手法であるモーション・マンバを提案する。
提案手法は,HumanML3DおよびKIT-MLデータセットの最大50%のFID改善と最大4倍の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-12T10:25:29Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - MultiAct: Long-Term 3D Human Motion Generation from Multiple Action
Labels [59.53048564128578]
複数のアクションラベルから長期の人間の動作を生成するための最初のフレームワークであるMultiActを提案する。
動作条件と動作条件の両方を、統一された再帰生成システムで考慮する。
その結果、MultiActは複数のアクションラベルの与えられたシーケンスによって制御される現実的な長期動作を生成する。
論文 参考訳(メタデータ) (2022-12-12T13:52:53Z) - Generative Tweening: Long-term Inbetweening of 3D Human Motions [40.16462039509098]
本稿では,ヒトの動作の長期的包摂を行う,生体力学的に制約された生成的敵ネットワークを提案する。
我々は79種類のキャプチャー・モーション・データをトレーニングし、ネットワークは様々な複雑なモーション・スタイルで頑健に動作した。
論文 参考訳(メタデータ) (2020-05-18T17:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。