論文の概要: Language-guided Human Motion Synthesis with Atomic Actions
- arxiv url: http://arxiv.org/abs/2308.09611v1
- Date: Fri, 18 Aug 2023 15:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:35:43.248595
- Title: Language-guided Human Motion Synthesis with Atomic Actions
- Title(参考訳): 原子作用を用いた言語誘導ヒト運動合成
- Authors: Yuanhao Zhai, Mingzhen Huang, Tianyu Luan, Lu Dong, Ifeoma Nwogu,
Siwei Lyu, David Doermann, Junsong Yuan
- Abstract要約: 本稿では,ATOM (ATomic mOtion Modeling) を提案する。
我々は、学習中に人間の動作を一連の原子行動に合成し、学習した原子行動を用いて新しい動作を組み立てる。
我々は,テキスト・ツー・モーション・シンセサイザーやアクション・ツー・モーション・シンセサイザーなどの広範囲な実験を通して,ATOMの有効性を実証する。
- 参考スコア(独自算出の注目度): 65.59760789288308
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language-guided human motion synthesis has been a challenging task due to the
inherent complexity and diversity of human behaviors. Previous methods face
limitations in generalization to novel actions, often resulting in unrealistic
or incoherent motion sequences. In this paper, we propose ATOM (ATomic mOtion
Modeling) to mitigate this problem, by decomposing actions into atomic actions,
and employing a curriculum learning strategy to learn atomic action
composition. First, we disentangle complex human motions into a set of atomic
actions during learning, and then assemble novel actions using the learned
atomic actions, which offers better adaptability to new actions. Moreover, we
introduce a curriculum learning training strategy that leverages masked motion
modeling with a gradual increase in the mask ratio, and thus facilitates atomic
action assembly. This approach mitigates the overfitting problem commonly
encountered in previous methods while enforcing the model to learn better
motion representations. We demonstrate the effectiveness of ATOM through
extensive experiments, including text-to-motion and action-to-motion synthesis
tasks. We further illustrate its superiority in synthesizing plausible and
coherent text-guided human motion sequences.
- Abstract(参考訳): 言語誘導型ヒトの動作合成は、人間の行動に固有の複雑さと多様性のために難しい課題となっている。
従来の手法では、新しい行動への一般化の限界に直面しており、しばしば非現実的または非コヒーレントな動き列をもたらす。
本稿では,アクションをアトミックアクションに分解し,アトミックアクションの構成を学ぶためのカリキュラム学習戦略を用いて,この問題を軽減するためのアトミックモーションモデリングを提案する。
まず、複雑な人間の動作を学習中に一連の原子行動に分解し、学習された原子行動を用いて新しいアクションを組み立て、新しいアクションへの適応性を向上する。
さらに,マスク比を段階的に増加させてマスク運動モデリングを活用するカリキュラム学習学習戦略を導入し,原子行動の組み立てを容易にする。
このアプローチは、モデルにより良い動き表現を学習させながら、従来手法でよく見られた過適合問題を緩和する。
テキストから動作への合成タスクやアクション・トゥ・モーション合成タスクなど,広範囲にわたる実験を通じて,atomの有効性を実証する。
さらに、可塑性およびコヒーレントなテキスト誘導ヒト運動系列の合成におけるその優位性について述べる。
関連論文リスト
- Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models [9.739611757541535]
私たちのアプローチでは、複雑なアクションをより単純な動き、特にトレーニング中に観察される動作に分解します。
これらの単純な動きは、拡散モデルの性質を用いて単一の現実的なアニメーションに結合される。
本研究では,2つの人間の動作データセットを基本的な動作と複雑な動作に分割して評価し,その性能を最先端の動作と比較する。
論文 参考訳(メタデータ) (2024-09-18T12:32:39Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - Dynamic Compositional Graph Convolutional Network for Efficient
Composite Human Motion Prediction [16.554998410205055]
本稿では,複合動作予測タスクを提案する。
この課題に対処するために、まず、コンポジットアクション生成(CAG)モジュールを提示する。
次に、動的構成グラフ畳み込みネットワーク(DC-GCN)を提示することで、複合行動が需要に与える影響を緩和する。
論文 参考訳(メタデータ) (2023-11-23T02:49:46Z) - Physically Plausible Full-Body Hand-Object Interaction Synthesis [32.83908152822006]
そこで本研究では,全体で手-物体間相互作用を合成するための物理に基づく手法を提案する。
既存のメソッドは、しばしば相互作用プロセスの分離されたセグメントにフォーカスし、成果物をもたらす可能性のあるデータ駆動技術に依存します。
論文 参考訳(メタデータ) (2023-09-14T17:55:18Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Locomotion-Action-Manipulation: Synthesizing Human-Scene Interactions in
Complex 3D Environments [11.87902527509297]
複雑な屋内環境下での自然および可塑性な長期的人間の運動を合成するために,LAMA, Locomotion-Action-Manipulationを提案する。
従来の3Dシーンをスキャンして「ペア化」する手法とは異なり、人間のモーションキャプチャーデータを合成にのみ使用することにより、テスト時間最適化として問題を定式化する。
論文 参考訳(メタデータ) (2023-01-09T18:59:16Z) - TEACH: Temporal Action Composition for 3D Humans [50.97135662063117]
自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成する。
特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。
論文 参考訳(メタデータ) (2022-09-09T00:33:40Z) - Towards Diverse and Natural Scene-aware 3D Human Motion Synthesis [117.15586710830489]
本研究では,ターゲットアクションシーケンスの誘導の下で,多様なシーンを意識した人間の動作を合成する問題に焦点をあてる。
この因子化スキームに基づいて、各サブモジュールが1つの側面をモデリングする責任を負う階層的なフレームワークが提案されている。
実験の結果,提案手法は,多様性と自然性の観点から,従来の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2022-05-25T18:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。