論文の概要: Dense Motion Captioning
- arxiv url: http://arxiv.org/abs/2511.05369v1
- Date: Fri, 07 Nov 2025 15:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.826858
- Title: Dense Motion Captioning
- Title(参考訳): デンスモーションキャプション
- Authors: Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota,
- Abstract要約: Dense Motion Captioningは、人間の3次元動作シーケンス内の時間的ローカライズとキャプション動作を目的とした、新しいタスクである。
提案するCompMoは,高精度な時間境界を持つリッチアノテートされた複雑な動き列を特徴とする,最初の大規模データセットである。
また,大規模な言語モデルとシンプルなモーションアダプタを統合するモデルであるDEMOを,高密度の時間的接頭辞を生成するために訓練した。
- 参考スコア(独自算出の注目度): 23.084589115674586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in 3D human motion and language integration have primarily focused on text-to-motion generation, leaving the task of motion understanding relatively unexplored. We introduce Dense Motion Captioning, a novel task that aims to temporally localize and caption actions within 3D human motion sequences. Current datasets fall short in providing detailed temporal annotations and predominantly consist of short sequences featuring few actions. To overcome these limitations, we present the Complex Motion Dataset (CompMo), the first large-scale dataset featuring richly annotated, complex motion sequences with precise temporal boundaries. Built through a carefully designed data generation pipeline, CompMo includes 60,000 motion sequences, each composed of multiple actions ranging from at least two to ten, accurately annotated with their temporal extents. We further present DEMO, a model that integrates a large language model with a simple motion adapter, trained to generate dense, temporally grounded captions. Our experiments show that DEMO substantially outperforms existing methods on CompMo as well as on adapted benchmarks, establishing a robust baseline for future research in 3D motion understanding and captioning.
- Abstract(参考訳): 人間の3D動作と言語統合の最近の進歩は、主にテキスト・ツー・モーション生成に焦点を合わせており、動作理解のタスクは比較的未探索のままである。
Dense Motion Captioningは、人間の3次元動作シーケンス内の時間的ローカライズとキャプション動作を目的とした、新しいタスクである。
現在のデータセットは、詳細な時間的アノテーションを提供することで不足しており、ほとんどアクションを持たない短いシーケンスで構成されています。
これらの制約を克服するために、我々は、高頻度で注釈付き複雑な動き列と正確な時間境界を持つ最初の大規模データセットであるCompMo(Complex Motion Dataset)を提示する。
CompMoは、慎重に設計されたデータ生成パイプラインを通じて構築され、6万のモーションシーケンスを含み、それぞれが少なくとも2から10までの複数のアクションで構成され、その時間範囲を正確にアノテートする。
さらに,大規模な言語モデルとシンプルなモーションアダプタを統合するモデルであるDEMOを,高密度の時間的接頭辞を生成するために訓練した。
実験の結果,DeMO は CompMo の既存手法と適応ベンチマークを著しく上回り,将来の3次元動作理解・キャプション研究の基盤となる。
関連論文リスト
- UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description [13.12764192547871]
MoChatは人間の動きの微粒な時間的接地が可能なモデルである。
我々は,ヒト解剖学的構造に基づいて,各骨格の空間情報をグループ化する。
共同トレーニングのためにさまざまなアノテーションが生成される。
論文 参考訳(メタデータ) (2024-10-15T08:49:59Z) - Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。
我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。
テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-07-11T12:33:56Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing [56.29102849106382]
FineMoGenは拡散ベースのモーション生成および編集フレームワークである。
微細な動きを合成し、ユーザの指示に時空間の合成を施す。
FineMoGenはさらに、現代の大規模言語モデルの助けを借りて、ゼロショットモーション編集機能を可能にする。
論文 参考訳(メタデータ) (2023-12-22T16:56:02Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。