論文の概要: Pushing the Boundaries of Text to Motion with Arbitrary Text: A New Task
- arxiv url: http://arxiv.org/abs/2404.14745v4
- Date: Fri, 03 Jan 2025 07:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:45.791915
- Title: Pushing the Boundaries of Text to Motion with Arbitrary Text: A New Task
- Title(参考訳): テキスト境界を任意テキストで動作させる:新しいタスク
- Authors: Runqi Wang, Caoyuan Ma, Guopeng Li, Hanrui Xu, Yuke Li, Zheng Wang,
- Abstract要約: 本稿では,制限されたアクションテキストを任意のテキストに拡張する。
明示的なアクションラベルのないシーンテキストは、複雑で多様な産業におけるモデルの実用性を高めることができる。
任意のテキストからアクション命令を抽出し,その後に動作を生成する,シンプルで効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.311771579881707
- License:
- Abstract: Text to Motion aims to generate human motions from texts. Existing settings rely on limited Action Texts that include action labels, which limits flexibility and practicability in scenarios difficult to describe directly. This paper extends limited Action Texts to arbitrary ones. Scene texts without explicit action labels can enhance the practicality of models in complex and diverse industries such as virtual human interaction, robot behavior generation, and film production, while also supporting the exploration of potential implicit behavior patterns. However, newly introduced Scene Texts may yield multiple reasonable output results, causing significant challenges in existing data, framework, and evaluation. To address this practical issue, we first create a new dataset HUMANML3D++ by extending texts of the largest existing dataset HUMANML3D. Secondly, we propose a simple yet effective framework that extracts action instructions from arbitrary texts and subsequently generates motions. Furthermore, we also benchmark this new setting with multi-solution metrics to address the inadequacies of existing single-solution metrics. Extensive experiments indicate that Text to Motion in this realistic setting is challenging, fostering new research in this practical direction.
- Abstract(参考訳): Text to Motionは、テキストから人間の動きを生成することを目的としている。
既存の設定はアクションラベルを含む限定されたアクションテキストに依存しており、直接記述しにくいシナリオの柔軟性と実践性を制限する。
本稿では,制限されたアクションテキストを任意のテキストに拡張する。
明示的なアクションラベルのないシーンテキストは、仮想人間相互作用、ロボットの行動生成、映画制作など、複雑で多様な産業におけるモデルの実用性を高めつつ、潜在的な暗黙的な行動パターンの探索を支援することができる。
しかし、新たに導入されたScene Textsは、複数の合理的な出力結果をもたらし、既存のデータ、フレームワーク、評価に重大な課題を引き起こす可能性がある。
この現実的な問題に対処するために、我々はまず、既存の最大のデータセットであるHUMANML3Dのテキストを拡張することで、新しいデータセットHUMANML3D++を作成します。
次に,任意のテキストから動作指示を抽出し,次に動作を生成する,シンプルで効果的なフレームワークを提案する。
さらに、この新たな設定をマルチソリューションメトリクスでベンチマークし、既存の単一ソリューションメトリクスの不整合に対処する。
広範にわたる実験から、この現実的な環境でのテキスト・トゥ・モーション(Text to Motion)は困難であり、この実践的な方向への新しい研究を促進することが示されている。
関連論文リスト
- Fg-T2M++: LLMs-Augmented Fine-Grained Text Driven Human Motion Generation [19.094098673523263]
テキスト駆動型人体動作生成のための新しいフレームワークを提案する。
Fg-T2M++ は,(1) 身体部分の記述と意味をテキストから抽出する LLM 意味解析モジュール,(2) テキスト単位間の関係情報をエンコードする双曲的テキスト表現モジュール,(3) テキストと運動の特徴を階層的に融合するマルチモーダル融合モジュールからなる。
論文 参考訳(メタデータ) (2025-02-08T11:38:12Z) - BiPO: Bidirectional Partial Occlusion Network for Text-to-Motion Synthesis [0.4893345190925178]
BiPOは、テキスト間合成を強化する新しいモデルである。
パートベースの生成と双方向の自己回帰アーキテクチャを統合する。
BiPOはHumanML3Dデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-28T05:42:47Z) - AToM: Aligning Text-to-Motion Model at Event-Level with GPT-4Vision Reward [20.249532310376026]
AToMは、GPT-4Visionの報酬を利用して生成された動きとテキストプロンプトのアライメントを強化するフレームワークである。
AToMは、テキスト・ツー・モーション生成のイベントレベルのアライメント品質を著しく改善する。
論文 参考訳(メタデータ) (2024-11-27T05:32:18Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。
事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。
実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文 参考訳(メタデータ) (2022-08-01T06:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。