Fugu-MT 論文翻訳(概要): MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description

論文の概要: MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description

arxiv url: http://arxiv.org/abs/2410.11404v1
Date: Tue, 15 Oct 2024 08:49:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.696785
Title: MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description
Title（参考訳）: MoChat:マルチタスク動作理解と記述のための関節群時空間接地LLM
Authors: Jiawei Mo, Yixuan Chen, Rifen Lin, Yongkang Ni, Min Zeng, Xiping Hu, Min Li,
Abstract要約: MoChatは人間の動きの微粒な時間的接地が可能なモデルである。我々は,ヒト解剖学的構造に基づいて,各骨格の空間情報をグループ化する。共同トレーニングのためにさまざまなアノテーションが生成される。
参考スコア（独自算出の注目度）: 13.12764192547871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite continuous advancements in deep learning for understanding human motion, existing models often struggle to accurately identify action timing and specific body parts, typically supporting only single-round interaction. Such limitations in capturing fine-grained motion details reduce their effectiveness in motion understanding tasks. In this paper, we propose MoChat, a multimodal large language model capable of spatio-temporal grounding of human motion and understanding multi-turn dialogue context. To achieve these capabilities, we group the spatial information of each skeleton frame based on human anatomical structure and then apply them with Joints-Grouped Skeleton Encoder, whose outputs are combined with LLM embeddings to create spatio-aware and temporal-aware embeddings separately. Additionally, we develop a pipeline for extracting timestamps from skeleton sequences based on textual annotations, and construct multi-turn dialogues for spatially grounding. Finally, various task instructions are generated for jointly training. Experimental results demonstrate that MoChat achieves state-of-the-art performance across multiple metrics in motion understanding tasks, making it as the first model capable of fine-grained spatio-temporal grounding of human motion.
Abstract（参考訳）: 人間の動きを理解するための深層学習の継続的な進歩にもかかわらず、既存のモデルはアクションタイミングと特定の身体部位を正確に識別するのに苦労することが多く、通常は単体インタラクションのみをサポートする。このような微粒な動きの詳細を捕捉する制限は、動作理解タスクにおけるその効果を低下させる。本稿では,人間の動作の時空間的グラウンド化とマルチターン対話コンテキストの理解が可能なマルチモーダルな大規模言語モデルであるMoChatを提案する。これらの機能を実現するために,ヒト解剖学的構造に基づいて各骨格の空間情報をグループ化し,その出力をLSM埋め込みと組み合わせて,時空間埋め込みと時空間埋め込みを別々に作成するジョイントスグループスケルトンエンコーダで適用する。さらに,テキストアノテーションに基づく骨格配列からタイムスタンプを抽出するパイプラインを開発し,空間的接地のためのマルチターン対話を構築した。最後に、共同訓練のための様々なタスク命令を生成する。実験結果から,MoChatは動作理解タスクにおける複数の指標にまたがる最先端性能を達成し,人間の動作の時空間的微粒化が可能な最初のモデルとなった。

関連論文リスト

VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities [36.42160163142448]
MG-MotionLLMは多粒運動の理解と生成のための統一運動言語モデルである。本稿では,新しい補助課題を取り入れた包括的多粒度学習手法を提案する。 MG-MotionLLMは,従来のテキスト・トゥ・モーションタスクやモーション・トゥ・テキストタスクにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2025-04-03T10:53:41Z)
AnyTop: Character Animation Diffusion with Any Topology [54.07731933876742]
我々は,異なる動きダイナミクスを持つ多種多様な文字に対する動きを生成する拡散モデルであるAnyTopを紹介する。我々の研究は、任意の骨格学習に適したトランスフォーマーベースの認知ネットワークを特徴としている。我々の評価では、AnyTopsはトポロジー当たりのトレーニング例が3つも少なく、見えない骨格の運動も生成できる。
論文参考訳（メタデータ） (2025-02-24T17:00:36Z)
Multi-Resolution Generative Modeling of Human Motion from Limited Data [3.5229503563299915]
限られたトレーニングシーケンスから人間の動きを合成することを学ぶ生成モデルを提案する。このモデルは、骨格の畳み込み層とマルチスケールアーキテクチャを統合することで、人間の動きパターンを順応的にキャプチャする。
論文参考訳（メタデータ） (2024-11-25T15:36:29Z)
KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。動作を別個の体節群運動に分解する動き表現を提案する。
論文参考訳（メタデータ） (2024-11-23T06:50:11Z)
Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文参考訳（メタデータ） (2023-12-06T21:14:20Z)
Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。従来の手法は手作りの機能と機械学習技術に依存している。 HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文参考訳（メタデータ） (2023-08-02T12:04:28Z)
Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文参考訳（メタデータ） (2023-05-25T08:32:41Z)
What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文参考訳（メタデータ） (2023-03-29T19:38:23Z)
A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文参考訳（メタデータ） (2022-04-25T08:42:47Z)
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文参考訳（メタデータ） (2022-04-06T02:42:33Z)
Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文参考訳（メタデータ） (2021-10-31T07:13:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。