Fugu-MT 論文翻訳(概要): MotionChain: Conversational Motion Controllers via Multimodal Prompts

論文の概要: MotionChain: Conversational Motion Controllers via Multimodal Prompts

arxiv url: http://arxiv.org/abs/2404.01700v2
Date: Wed, 3 Apr 2024 06:40:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 11:43:37.899658
Title: MotionChain: Conversational Motion Controllers via Multimodal Prompts
Title（参考訳）: MotionChain:マルチモーダルプロンプトによる会話型モーションコントローラ
Authors: Biao Jiang, Xin Chen, Chi Zhang, Fukun Yin, Zhuoyuan Li, Gang YU, Jiayuan Fan,
Abstract要約: 我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
参考スコア（独自算出の注目度）: 25.181069337771127
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in language models have demonstrated their adeptness in conducting multi-turn dialogues and retaining conversational context. However, this proficiency remains largely unexplored in other multimodal generative models, particularly in human motion models. By integrating multi-turn conversations in controlling continuous virtual human movements, generative human motion models can achieve an intuitive and step-by-step process of human task execution for humanoid robotics, game agents, or other embodied systems. In this work, we present MotionChain, a conversational human motion controller to generate continuous and long-term human motion through multimodal prompts. Specifically, MotionChain consists of multi-modal tokenizers that transform various data types such as text, image, and motion, into discrete tokens, coupled with a Vision-Motion-aware Language model. By leveraging large-scale language, vision-language, and vision-motion data to assist motion-related generation tasks, MotionChain thus comprehends each instruction in multi-turn conversation and generates human motions followed by these prompts. Extensive experiments validate the efficacy of MotionChain, demonstrating state-of-the-art performance in conversational motion generation, as well as more intuitive manners of controlling and interacting with virtual humans.
Abstract（参考訳）: 言語モデルの最近の進歩は、多ターン対話の実施と会話の文脈の維持において、その適応性を実証している。しかしながら、この習熟度は他のマルチモーダル生成モデル、特にヒトの運動モデルにおいてほとんど探索されていない。連続的な仮想人間の動きを制御するために多ターン会話を統合することで、人型ロボット、ゲームエージェント、または他の具体的システムに対する人間のタスク実行の直感的でステップバイステップのプロセスを実現することができる。本研究では,マルチモーダルプロンプトによる人間の連続的・長期的動作を生成する対話型モーションコントローラであるMotionChainを紹介する。具体的には、MotionChainは、テキスト、画像、モーションなどのさまざまなデータ型を個別のトークンに変換するマルチモーダルトークンライザと、Vision-Motion-Aware Languageモデルで構成される。そこでMotionChainは、大規模言語、視覚言語、視覚運動データを活用して、動作関連生成タスクを支援することにより、マルチターン会話における各命令を理解し、それに続く人間の動作を生成する。広範囲にわたる実験は、モーションチェインの有効性を検証し、会話の動作生成における最先端のパフォーマンスを実証し、仮想人間と制御し相互作用するより直感的な方法を示した。

関連論文リスト

TextOp: Real-time Interactive Text-Driven Humanoid Robot Motion Generation and Control [62.93681680333618]
TextOpはリアルタイムテキスト駆動型ヒューマノイドモーション生成および制御フレームワークである。ストリーミング言語コマンドと実行中のオンザフライ命令修正をサポートする。対話型モーション生成を堅牢な全身制御でブリッジすることで、TextOpは自由形式のインテント表現をアンロックする。
論文参考訳（メタデータ） (2026-02-07T08:42:11Z)
ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body [25.087113475162592]
ViBES(Voice in Behavioral Expression and Synchrony)は、言語と運動を共同で計画する対話型3Dエージェントである。 ViBESは、言語、韻律、運動が共同生成されるエージェント仮想体への「音声条件の運動生成」を越えている。
論文参考訳（メタデータ） (2025-12-16T09:41:21Z)
Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文参考訳（メタデータ） (2025-04-11T00:41:25Z)
ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis [37.60532857094311]
ChatMotionは、人間の動作分析のためのマルチモーダルなマルチエージェントフレームワークである。ユーザ意図を解釈し、複雑なタスクをメタタスクに分解し、モーション理解のための特別な関数モジュールを起動する。さまざまな視点から人間の動きを分析するために、MotionCoreのような複数の特殊なモジュールを統合している。
論文参考訳（メタデータ） (2025-02-25T13:12:55Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文参考訳（メタデータ） (2024-10-30T17:22:45Z)
Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [83.55301458112672]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文参考訳（メタデータ） (2024-10-14T17:56:19Z)
Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文参考訳（メタデータ） (2024-10-08T02:23:53Z)
MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文参考訳（メタデータ） (2024-05-30T17:59:50Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文参考訳（メタデータ） (2023-06-26T15:53:02Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。