論文の概要: ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis
- arxiv url: http://arxiv.org/abs/2502.18180v2
- Date: Thu, 27 Feb 2025 13:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:46.521779
- Title: ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis
- Title(参考訳): ChatMotion:人間の動作分析のためのマルチモーダルマルチエージェント
- Authors: Lei Li, Sen Jia, Jianhao Wang, Zhaochong An, Jiaang Li, Jenq-Neng Hwang, Serge Belongie,
- Abstract要約: ChatMotionは、人間の動作分析のためのマルチモーダルなマルチエージェントフレームワークである。
ユーザ意図を解釈し、複雑なタスクをメタタスクに分解し、モーション理解のための特別な関数モジュールを起動する。
さまざまな視点から人間の動きを分析するために、MotionCoreのような複数の特殊なモジュールを統合している。
- 参考スコア(独自算出の注目度): 37.60532857094311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in Multimodal Large Language Models (MLLMs) have improved human motion understanding. However, these models remain constrained by their "instruct-only" nature, lacking interactivity and adaptability for diverse analytical perspectives. To address these challenges, we introduce ChatMotion, a multimodal multi-agent framework for human motion analysis. ChatMotion dynamically interprets user intent, decomposes complex tasks into meta-tasks, and activates specialized function modules for motion comprehension. It integrates multiple specialized modules, such as the MotionCore, to analyze human motion from various perspectives. Extensive experiments demonstrate ChatMotion's precision, adaptability, and user engagement for human motion understanding.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩は、人間の動作理解を改善した。
しかし、これらのモデルは「構造のみ」の性質に制約され続けており、多様な分析的な観点からの相互作用性と適応性が欠如している。
これらの課題に対処するために,人間の動作分析のためのマルチモーダルマルチエージェントフレームワークChatMotionを紹介する。
ChatMotionはユーザの意図を動的に解釈し、複雑なタスクをメタタスクに分解し、モーション理解のための特別な関数モジュールを起動する。
さまざまな視点から人間の動きを分析するために、MotionCoreのような複数の特殊なモジュールを統合している。
大規模な実験では、人間の動作理解のためのChatMotionの精度、適応性、ユーザエンゲージメントが示されている。
関連論文リスト
- Mojito: LLM-Aided Motion Instructor with Jitter-Reduced Inertial Tokens [37.26990830273303]
慣性計測ユニット(IMU)は軽量でウェアラブルで、プライバシーに配慮したモーションセンシングを提供する。
ストリーミングIMUデータの処理は、無線伝送不安定性、センサノイズ、ドリフトといった課題に直面している。
対話型モーションキャプチャと行動分析のための大規模言語モデルと慣性センシングを統合したインテリジェントモーションエージェントであるMojitoを紹介する。
論文 参考訳(メタデータ) (2025-02-22T10:31:58Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。
VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。
我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。
大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文 参考訳(メタデータ) (2024-04-02T07:09:29Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。
大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。
我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文 参考訳(メタデータ) (2023-06-26T15:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。