Fugu-MT 論文翻訳(概要): ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis

論文の概要: ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis

arxiv url: http://arxiv.org/abs/2502.18180v1
Date: Tue, 25 Feb 2025 13:12:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:46.069076
Title: ChatMotion: A Multimodal Multi-Agent for Human Motion Analysis
Title（参考訳）: ChatMotion:人間の動作分析のためのマルチモーダルマルチエージェント
Authors: Li Lei, Jia Sen, Wang Jianhao, An Zhaochong, Li Jiaang, Hwang Jenq-Neng, Belongie Serge,
Abstract要約: ChatMotionは、人間の動作分析のためのマルチモーダルなマルチエージェントフレームワークである。ユーザ意図を解釈し、複雑なタスクをメタタスクに分解し、モーション理解のための特別な関数モジュールを起動する。さまざまな視点から人間の動きを分析するために、MotionCoreのような複数の特殊なモジュールを統合している。
参考スコア（独自算出の注目度）: 0.24709875922771526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advancements in Multimodal Large Language Models (MLLMs) have improved human motion understanding. However, these models remain constrained by their "instruct-only" nature, lacking interactivity and adaptability for diverse analytical perspectives. To address these challenges, we introduce ChatMotion, a multimodal multi-agent framework for human motion analysis. ChatMotion dynamically interprets user intent, decomposes complex tasks into meta-tasks, and activates specialized function modules for motion comprehension. It integrates multiple specialized modules, such as the MotionCore, to analyze human motion from various perspectives. Extensive experiments demonstrate ChatMotion's precision, adaptability, and user engagement for human motion understanding.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の進歩は、人間の動作理解を改善した。しかし、これらのモデルは「構造のみ」の性質に制約され続けており、多様な分析的な観点からの相互作用性と適応性が欠如している。これらの課題に対処するために,人間の動作分析のためのマルチモーダルマルチエージェントフレームワークChatMotionを紹介する。 ChatMotionはユーザの意図を動的に解釈し、複雑なタスクをメタタスクに分解し、モーション理解のための特別な関数モジュールを起動する。さまざまな視点から人間の動きを分析するために、MotionCoreのような複数の特殊なモジュールを統合している。大規模な実験では、人間の動作理解のためのChatMotionの精度、適応性、ユーザエンゲージメントが示されている。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Mojito: LLM-Aided Motion Instructor with Jitter-Reduced Inertial Tokens [37.26990830273303]
慣性計測ユニット(IMU)は軽量でウェアラブルで、プライバシーに配慮したモーションセンシングを提供する。ストリーミングIMUデータの処理は、無線伝送不安定性、センサノイズ、ドリフトといった課題に直面している。対話型モーションキャプチャと行動分析のための大規模言語モデルと慣性センシングを統合したインテリジェントモーションエージェントであるMojitoを紹介する。
論文参考訳（メタデータ） (2025-02-22T10:31:58Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。 VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文参考訳（メタデータ） (2024-10-08T02:23:53Z)
MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文参考訳（メタデータ） (2024-05-30T17:59:50Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
MotionChain: Conversational Motion Controllers via Multimodal Prompts [25.181069337771127]
我々は,マルチモーダルプロンプトによる連続的,長期的人間の動作を生成する対話型ヒューマンモーションコントローラであるMotionChainを紹介する。大規模言語、視覚言語、視覚運動データを活用することで、MotionChainは、マルチターン会話で各命令を理解し、それに続く人間の動きを生成する。
論文参考訳（メタデータ） (2024-04-02T07:09:29Z)
MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。 MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文参考訳（メタデータ） (2024-02-01T02:43:20Z)
MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文参考訳（メタデータ） (2023-10-16T09:09:02Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文参考訳（メタデータ） (2023-06-26T15:53:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。