論文の概要: SegMo: Segment-aligned Text to 3D Human Motion Generation
- arxiv url: http://arxiv.org/abs/2512.21237v1
- Date: Wed, 24 Dec 2025 15:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.815654
- Title: SegMo: Segment-aligned Text to 3D Human Motion Generation
- Title(参考訳): SegMo:Segment-aligned Text to 3D Human Motion Generation
- Authors: Bowen Dang, Lin Wu, Xiaohang Yang, Zheng Yuan, Zhixiang Chen,
- Abstract要約: SegMoは、新しいテキスト条件のヒューマンモーション生成フレームワークである。
複雑なテキスト記述を時間的に順序づけられたフレーズに分解し、それぞれが単純な原子行動を表す。
動作シーケンスを対応する動作セグメントに分割し、テキストと動作セグメントを対照的な学習と整合させる。
- 参考スコア(独自算出の注目度): 8.289973143166062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D human motions from textual descriptions is an important research problem with broad applications in video games, virtual reality, and augmented reality. Recent methods align the textual description with human motion at the sequence level, neglecting the internal semantic structure of modalities. However, both motion descriptions and motion sequences can be naturally decomposed into smaller and semantically coherent segments, which can serve as atomic alignment units to achieve finer-grained correspondence. Motivated by this, we propose SegMo, a novel Segment-aligned text-conditioned human Motion generation framework to achieve fine-grained text-motion alignment. Our framework consists of three modules: (1) Text Segment Extraction, which decomposes complex textual descriptions into temporally ordered phrases, each representing a simple atomic action; (2) Motion Segment Extraction, which partitions complete motion sequences into corresponding motion segments; and (3) Fine-grained Text-Motion Alignment, which aligns text and motion segments with contrastive learning. Extensive experiments demonstrate that SegMo improves the strong baseline on two widely used datasets, achieving an improved TOP 1 score of 0.553 on the HumanML3D test set. Moreover, thanks to the learned shared embedding space for text and motion segments, SegMo can also be applied to retrieval-style tasks such as motion grounding and motion-to-text retrieval.
- Abstract(参考訳): テキスト記述から人間の3D動作を生成することは、ビデオゲーム、仮想現実、拡張現実における幅広い応用において重要な研究課題である。
近年の手法では、モダリティの内部的意味構造を無視して、テキスト記述と人間の動作とをシーケンスレベルで整列化している。
しかし、モーション記述とモーションシーケンスの両方は、自然に小さく、意味的に一貫性のあるセグメントに分解することができ、原子アライメントユニットとして機能してよりきめ細かな対応を達成できる。
そこで本研究では,テキスト・モーション・アライメントを実現するためのセグメンテーション・アラインメント・テキスト・コンディショニング・ヒューマン・モーション・ジェネレーション・フレームワークであるSegMoを提案する。
本フレームワークは3つのモジュールから構成される。(1) 複雑なテキスト記述を時間的に順序づけられたフレーズに分解するテキストセグメンテーション抽出,(2) 完全な動作シーケンスを対応する動作セグメントに分割するモーションセグメンテーション抽出,(3) テキストと動作セグメントを対照的な学習で整列する微細なテキスト-運動アライメント。
大規模な実験により、SegMoは2つの広く使用されているデータセットの強いベースラインを改善し、HumanML3Dテストセットで0.553のTOP 1スコアを向上した。
さらに、テキストやモーションセグメントのための学習された共有埋め込みスペースのおかげで、モーショングラウンドやモーション・トゥ・テキスト検索といった検索スタイルのタスクにもSegMoを適用することができる。
関連論文リスト
- UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - AToM: Aligning Text-to-Motion Model at Event-Level with GPT-4Vision Reward [20.249532310376026]
AToMは、GPT-4Visionの報酬を利用して生成された動きとテキストプロンプトのアライメントを強化するフレームワークである。
AToMは、テキスト・ツー・モーション生成のイベントレベルのアライメント品質を著しく改善する。
論文 参考訳(メタデータ) (2024-11-27T05:32:18Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics [50.88842027976421]
両手動作生成のための新しいマルチモーダルデータセットBOTH57Mを提案する。
私たちのデータセットには、人体と手の動きの正確な追跡が含まれています。
また,新しいタスクのための強力なベースライン手法であるBOTH2Handsも提供する。
論文 参考訳(メタデータ) (2023-12-13T07:30:19Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。