論文の概要: KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding
- arxiv url: http://arxiv.org/abs/2602.17768v1
- Date: Thu, 19 Feb 2026 19:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.107157
- Title: KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding
- Title(参考訳): KPM-Bench: 微粒な動き中心のビデオ理解のためのキネマティック・パーシング・モーションベンチマーク
- Authors: Boda Lin, Yongjie Zhu, Xiaocheng Gong, Wenyu Qin, Meng Wang,
- Abstract要約: 本稿では,運動計算と言語解析を統合した自動パイプラインを提案する。
我々はKPM-Bench(Kinematic Parsing Motion Benchmark)をオープンソースとしてリリースした。
幻覚の問題を体系的に解決するために,言語的に基盤付けられた運動解析と抽出(MoPE)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.492925863458767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements, video captioning models still face significant limitations in accurately describing fine-grained motion details and suffer from severe hallucination issues. These challenges become particularly prominent when generating captions for motion-centric videos, where precise depiction of intricate movements and limb dynamics is crucial yet often neglected. To alleviate this gap, we introduce an automated annotation pipeline that integrates kinematic-based motion computation with linguistic parsing, enabling detailed decomposition and description of complex human motions. Based on this pipeline, we construct and release the Kinematic Parsing Motion Benchmark (KPM-Bench), a novel open-source dataset designed to facilitate fine-grained motion understanding. KPM-Bench consists of (i) fine-grained video-caption pairs that comprehensively illustrate limb-level dynamics in complex actions, (ii) diverse and challenging question-answer pairs focusing specifically on motion understanding, and (iii) a meticulously curated evaluation set specifically designed to assess hallucination phenomena associated with motion descriptions. Furthermore, to address hallucination issues systematically, we propose the linguistically grounded Motion Parsing and Extraction (MoPE) algorithm, capable of accurately extracting motion-specific attributes directly from textual captions. Leveraging MoPE, we introduce a precise hallucination evaluation metric that functions independently of large-scale vision-language or language-only models. By integrating MoPE into the GRPO post-training framework, we effectively mitigate hallucination problems, significantly improving the reliability of motion-centric video captioning models.
- Abstract(参考訳): 近年の進歩にもかかわらず、ビデオキャプションモデルは細粒度の動きの詳細を正確に記述する上で大きな制限に直面しており、幻覚の深刻な問題に悩まされている。
これらの課題は、複雑な動きと手足のダイナミクスの正確な描写が不可欠であるが、しばしば無視されるモーション中心ビデオのキャプションを生成するときに特に顕著になる。
このギャップを軽減するために,運動計算と言語解析を統合した自動アノテーションパイプラインを導入し,複雑な人間の動作の詳細な分解と記述を可能にする。
このパイプラインをベースとしたKPM-Bench(Kinematic Parsing Motion Benchmark)は,詳細な動作理解を容易にするために設計された,オープンソースのデータセットである。
KPM-Bench は
(i)複雑な動作における手足レベルのダイナミクスを包括的に記述したきめ細かいビデオキャプチャーペア。
(二)動作理解に焦点をあてた多様で挑戦的な質問対
三 動作記述に係る幻覚現象を具体的に評価するための細心の注意深い評価セット。
さらに,幻覚の問題を体系的に解決するために,テキストキャプションから直接,動作固有の属性を正確に抽出できる言語的基盤を持つMoPEアルゴリズムを提案する。
大規模視覚言語や言語のみのモデルとは独立して機能する,正確な幻覚評価指標を導入する。
GRPOポストトレーニングフレームワークにMoPEを統合することで、幻覚の問題を効果的に軽減し、モーション中心の動画キャプションモデルの信頼性を大幅に向上する。
関連論文リスト
- MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization [73.07309070257162]
MotionAdapterは、ロバストでセマンティックに整合したモーション転送を可能にする、コンテンツ対応のモーション転送フレームワークである。
我々の重要な洞察は、効果的な動き伝達は外見から運動を明示的に切り離す必要があることである。
MotionAdapterは自然に複雑なモーション転送とズームのようなモーション編集タスクをサポートする。
論文 参考訳(メタデータ) (2026-01-05T10:01:27Z) - Towards Fine-Grained Human Motion Video Captioning [29.488105191601957]
我々は,動き認識デコーディングを取り入れることでキャプション品質を向上させる新しい生成フレームワークであるMotion-Augmented Caption Model (M-ACM)を紹介する。
中心となるM-ACMは、人間のメッシュリカバリに由来する動きの表現を利用して、人間の身体のダイナミクスを明確に強調する。
実験の結果,M-ACMは複雑な人間の動きや微妙な時間変動を正確に記述する従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-10-24T04:06:04Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs [33.63039716995234]
我々は、物体中心の視覚スポットライトと動きのぼけを視覚的プロンプトとして生み出す新しいゼロショット手法であるMotionSightを紹介した。
我々は、SFTや嗜好データ、Theta(40K)ビデオクリップ、Theta(87K)QAといった階層的なアノテーションを備えた、ビデオモーション理解のための最初の大規模データセットであるMotionVid-QAをキュレートした。実験の結果、MotionSightは最先端のオープンソースパフォーマンスと商用モデルとの競争性を達成している。
論文 参考訳(メタデータ) (2025-06-02T13:44:56Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MoChat: Joints-Grouped Spatio-Temporal Grounding LLM for Multi-Turn Motion Comprehension and Description [13.12764192547871]
MoChatは人間の動きの微粒な時間的接地が可能なモデルである。
我々は,ヒト解剖学的構造に基づいて,各骨格の空間情報をグループ化する。
共同トレーニングのためにさまざまなアノテーションが生成される。
論文 参考訳(メタデータ) (2024-10-15T08:49:59Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。