論文の概要: SemanticBoost: Elevating Motion Generation with Augmented Textual Cues
- arxiv url: http://arxiv.org/abs/2310.20323v1
- Date: Tue, 31 Oct 2023 09:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 15:46:25.554748
- Title: SemanticBoost: Elevating Motion Generation with Augmented Textual Cues
- Title(参考訳): SemanticBoost: Augmented Textual Cuesを用いたモーション生成
- Authors: Xin He, Shaoli Huang, Xiaohang Zhan, Chao Wen, Ying Shan
- Abstract要約: 我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 63.156227227524695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current techniques face difficulties in generating motions from intricate
semantic descriptions, primarily due to insufficient semantic annotations in
datasets and weak contextual understanding. To address these issues, we present
SemanticBoost, a novel framework that tackles both challenges simultaneously.
Our framework comprises a Semantic Enhancement module and a Context-Attuned
Motion Denoiser (CAMD). The Semantic Enhancement module extracts supplementary
semantics from motion data, enriching the dataset's textual description and
ensuring precise alignment between text and motion data without depending on
large language models. On the other hand, the CAMD approach provides an
all-encompassing solution for generating high-quality, semantically consistent
motion sequences by effectively capturing context information and aligning the
generated motion with the given textual descriptions. Distinct from existing
methods, our approach can synthesize accurate orientational movements, combined
motions based on specific body part descriptions, and motions generated from
complex, extended sentences. Our experimental results demonstrate that
SemanticBoost, as a diffusion-based method, outperforms auto-regressive-based
techniques, achieving cutting-edge performance on the Humanml3D dataset while
maintaining realistic and smooth motion generation quality.
- Abstract(参考訳): 現在の技術では、データセットのセマンティックアノテーションが不十分でコンテキスト理解が弱いため、複雑なセマンティック記述から動作を生成するのが困難である。
これらの問題に対処するために,我々はsemanticboostという新しいフレームワークを提案する。
本フレームワークは,意味強調モジュールと文脈対応モーションデノイザー(camd)から構成される。
セマンティックエンハンスメントモジュールは、モーションデータから補足的セマンティクスを抽出し、データセットのテキスト記述を豊かにし、大きな言語モデルに依存することなく、テキストとモーションデータの正確なアライメントを確保する。
一方、camdアプローチは、コンテキスト情報を効果的に捉え、生成された動きを所定のテキスト記述と整合させることで、高品質で意味的に一貫性のある動きシーケンスを生成するための全包括的ソリューションを提供する。
既存の方法と異なるアプローチでは、正確な方向移動、特定の身体部分の記述に基づく複合動作、複雑な伸長文から生成される動きを合成することができる。
実験の結果,SemanticBoostは拡散法として自己回帰法より優れ,Humanml3Dデータセット上での最先端性能を実現し,現実的かつスムーズな動き生成品質を維持した。
関連論文リスト
- Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。