論文の概要: Towards Fine-Grained Human Motion Video Captioning
- arxiv url: http://arxiv.org/abs/2510.24767v1
- Date: Fri, 24 Oct 2025 04:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.40398
- Title: Towards Fine-Grained Human Motion Video Captioning
- Title(参考訳): 微粒な人間のモーションビデオキャプションを目指して
- Authors: Guorui Song, Guocun Wang, Zhe Huang, Jing Lin, Xuefei Zhe, Jian Li, Haoqian Wang,
- Abstract要約: 我々は,動き認識デコーディングを取り入れることでキャプション品質を向上させる新しい生成フレームワークであるMotion-Augmented Caption Model (M-ACM)を紹介する。
中心となるM-ACMは、人間のメッシュリカバリに由来する動きの表現を利用して、人間の身体のダイナミクスを明確に強調する。
実験の結果,M-ACMは複雑な人間の動きや微妙な時間変動を正確に記述する従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 29.488105191601957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating accurate descriptions of human actions in videos remains a challenging task for video captioning models. Existing approaches often struggle to capture fine-grained motion details, resulting in vague or semantically inconsistent captions. In this work, we introduce the Motion-Augmented Caption Model (M-ACM), a novel generative framework that enhances caption quality by incorporating motion-aware decoding. At its core, M-ACM leverages motion representations derived from human mesh recovery to explicitly highlight human body dynamics, thereby reducing hallucinations and improving both semantic fidelity and spatial alignment in the generated captions. To support research in this area, we present the Human Motion Insight (HMI) Dataset, comprising 115K video-description pairs focused on human movement, along with HMI-Bench, a dedicated benchmark for evaluating motion-focused video captioning. Experimental results demonstrate that M-ACM significantly outperforms previous methods in accurately describing complex human motions and subtle temporal variations, setting a new standard for motion-centric video captioning.
- Abstract(参考訳): ビデオ中の人間の行動の正確な記述を生成することは、ビデオキャプションモデルにとって難しい課題だ。
既存のアプローチは、しばしば細かな動きの詳細を捉えるのに苦労し、あいまいか意味的に矛盾するキャプションをもたらす。
本研究では,動き認識デコーディングを取り入れることでキャプション品質を向上させる新しい生成フレームワークであるM-ACMを紹介する。
中心となるM-ACMは、人間のメッシュリカバリに由来する動きの表現を利用して、人間の身体のダイナミクスを明確に強調し、幻覚を減らし、生成されたキャプションにおける意味的忠実度と空間的アライメントを改善する。
この領域の研究を支援するために,HMI(Human Motion Insight)データセットを提示し,人間の動きに着目した115万の動画記述ペアと,動きに着目した動画キャプション評価のための専用ベンチマークであるHMI-Benchについて述べる。
実験により、M-ACMは、複雑な人間の動きと微妙な時間変化を正確に記述する従来の手法よりも優れており、動画キャプションの新たな標準となっている。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Diving Deep into the Motion Representation of Video-Text Models [12.197093960700187]
GPT-4の生成した動作記述は、アクティビティのきめ細かい動作記述をキャプチャする。
動作記述の検索作業におけるビデオテキストモデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-07T16:46:10Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。