論文の概要: InfiniDreamer: Arbitrarily Long Human Motion Generation via Segment Score Distillation
- arxiv url: http://arxiv.org/abs/2411.18303v1
- Date: Wed, 27 Nov 2024 12:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 15:52:53.668345
- Title: InfiniDreamer: Arbitrarily Long Human Motion Generation via Segment Score Distillation
- Title(参考訳): InfiniDreamer: セグメンションスコア蒸留による任意に長い人間の動作生成
- Authors: Wenjie Zhuo, Fan Ma, Hehe Fan,
- Abstract要約: 我々は、任意に長い人間の動きを生成するための新しい枠組みを提案する。
InfiniDreamerは、各テキスト記述に対応するサブモーションを生成する。
次に、ランダムな遷移セグメントを用いて、それらを粗い拡張シーケンスに組み立てる。
- 参考スコア(独自算出の注目度): 19.325183843725632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present InfiniDreamer, a novel framework for arbitrarily long human motion generation. InfiniDreamer addresses the limitations of current motion generation methods, which are typically restricted to short sequences due to the lack of long motion training data. To achieve this, we first generate sub-motions corresponding to each textual description and then assemble them into a coarse, extended sequence using randomly initialized transition segments. We then introduce an optimization-based method called Segment Score Distillation (SSD) to refine the entire long motion sequence. SSD is designed to utilize an existing motion prior, which is trained only on short clips, in a training-free manner. Specifically, SSD iteratively refines overlapping short segments sampled from the coarsely extended long motion sequence, progressively aligning them with the pre-trained motion diffusion prior. This process ensures local coherence within each segment, while the refined transitions between segments maintain global consistency across the entire sequence. Extensive qualitative and quantitative experiments validate the superiority of our framework, showcasing its ability to generate coherent, contextually aware motion sequences of arbitrary length.
- Abstract(参考訳): InfiniDreamerは、任意に長い人間の動きを生成するための新しいフレームワークである。
InfiniDreamerは、現在のモーション生成手法の限界に対処する。
そこで我々はまず,各テキスト記述に対応するサブモーションを生成し,それらをランダムに初期化遷移セグメントを用いて粗い拡張シーケンスに組み立てる。
次に,Segment Score Distillation (SSD) と呼ばれる最適化手法を導入し,長動きシーケンス全体を改良する。
SSDは、トレーニング不要の方法で、短いクリップでのみトレーニングされる既存のモーションを利用するように設計されている。
具体的には、SSDは、粗い長い動き列からサンプリングされた短い部分の重なり合いを反復的に洗練し、予め訓練された動き拡散と徐々に整合させる。
このプロセスは各セグメント内の局所的なコヒーレンスを保証するが、セグメント間の洗練された遷移はシーケンス全体のグローバルな一貫性を維持する。
大規模定性的かつ定量的な実験により、フレームワークの優位性を検証し、任意の長さのコヒーレントで文脈的に認識された動き列を生成する能力を示す。
関連論文リスト
- Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-11T16:43:45Z) - Lagrangian Motion Fields for Long-term Motion Generation [32.548139921363756]
本稿では,ラグランジアン運動場の概念について紹介する。
各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文 参考訳(メタデータ) (2024-09-03T01:38:06Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。
完全教師なし方式で動作する新しい長期光時間モデルを提案する。
4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。