論文の概要: The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
- arxiv url: http://arxiv.org/abs/2412.10523v1
- Date: Fri, 13 Dec 2024 19:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:55.715945
- Title: The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
- Title(参考訳): 動きの言語:3次元動作の言語と非言語を統一する
- Authors: Changan Chen, Juze Zhang, Shrinidhi K. Lakshmikanth, Yusu Fang, Ruizhi Shao, Gordon Wetzstein, Li Fei-Fei, Ehsan Adeli,
- Abstract要約: 本稿では,多モーダル言語モデルを用いて,言語と非言語を統一する新しいフレームワークを提案する。
提案手法は,音声合成における最先端性能を実現する。
我々は、現実世界の応用には、人間の動きの言語と非言語を統一することが不可欠であると信じている。
- 参考スコア(独自算出の注目度): 46.01825432018138
- License:
- Abstract: Human communication is inherently multimodal, involving a combination of verbal and non-verbal cues such as speech, facial expressions, and body gestures. Modeling these behaviors is essential for understanding human interaction and for creating virtual characters that can communicate naturally in applications like games, films, and virtual reality. However, existing motion generation models are typically limited to specific input modalities -- either speech, text, or motion data -- and cannot fully leverage the diversity of available data. In this paper, we propose a novel framework that unifies verbal and non-verbal language using multimodal language models for human motion understanding and generation. This model is flexible in taking text, speech, and motion or any combination of them as input. Coupled with our novel pre-training strategy, our model not only achieves state-of-the-art performance on co-speech gesture generation but also requires much less data for training. Our model also unlocks an array of novel tasks such as editable gesture generation and emotion prediction from motion. We believe unifying the verbal and non-verbal language of human motion is essential for real-world applications, and language models offer a powerful approach to achieving this goal. Project page: languageofmotion.github.io.
- Abstract(参考訳): 人間のコミュニケーションは本質的にマルチモーダルであり、言語、表情、身体のジェスチャーといった言語と非言語の組み合わせを含んでいる。
これらの振る舞いをモデル化することは、人間のインタラクションを理解し、ゲーム、映画、バーチャルリアリティーといったアプリケーションで自然にコミュニケーションできる仮想文字を作成するのに不可欠である。
しかしながら、既存のモーション生成モデルは、通常、音声、テキスト、またはモーションデータといった特定の入力モダリティに制限されており、利用可能なデータの多様性を完全に活用することはできない。
本稿では,人間の動作理解と生成のための多モーダル言語モデルを用いて,言語と非言語を統一する新しい枠組みを提案する。
このモデルは、テキスト、音声、動き、あるいはそれらの組み合わせを入力として取る際に柔軟である。
我々の新しい事前学習戦略と組み合わさって、我々のモデルは、音声のジェスチャー生成における最先端のパフォーマンスを達成するだけでなく、トレーニングに必要なデータもはるかに少なくする。
我々のモデルは、編集可能なジェスチャー生成やモーションからの感情予測など、新しいタスクの配列をアンロックする。
私たちは、人間の動きの言語的・非言語的言語を統一することは、現実世界のアプリケーションには不可欠であると信じており、言語モデルは、この目標を達成するための強力なアプローチを提供する。
プロジェクトページ: languageofmotion.github.io
関連論文リスト
- Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。
大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文 参考訳(メタデータ) (2024-04-02T07:09:29Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。
大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。
我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文 参考訳(メタデータ) (2023-06-26T15:53:02Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。