論文の概要: Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases
- arxiv url: http://arxiv.org/abs/2310.04189v3
- Date: Thu, 11 Jul 2024 09:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:47:33.470427
- Title: Bridging the Gap between Human Motion and Action Semantics via Kinematic Phrases
- Title(参考訳): 人の動きと行動セマンティクスのギャップをキネマティック・フェースで埋める
- Authors: Xinpeng Liu, Yong-Lu Li, Ailing Zeng, Zizheng Zhou, Yang You, Cewu Lu,
- Abstract要約: 動作理解は、動作意味論と行動意味論の信頼性の高いマッピングを確立することを目的としている。
本研究では,人間の動作の客観的な運動事実を適切な抽象化,解釈可能性,一般性で捉えたキネマティック・フェース(KP)を提案する。
KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。
- 参考スコア(独自算出の注目度): 59.32509533292653
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Motion understanding aims to establish a reliable mapping between motion and action semantics, while it is a challenging many-to-many problem. An abstract action semantic (i.e., walk forwards) could be conveyed by perceptually diverse motions (walking with arms up or swinging). In contrast, a motion could carry different semantics w.r.t. its context and intention. This makes an elegant mapping between them difficult. Previous attempts adopted direct-mapping paradigms with limited reliability. Also, current automatic metrics fail to provide reliable assessments of the consistency between motions and action semantics. We identify the source of these problems as the significant gap between the two modalities. To alleviate this gap, we propose Kinematic Phrases (KP) that take the objective kinematic facts of human motion with proper abstraction, interpretability, and generality. Based on KP, we can unify a motion knowledge base and build a motion understanding system. Meanwhile, KP can be automatically converted from motions to text descriptions with no subjective bias, inspiring Kinematic Prompt Generation (KPG) as a novel white-box motion generation benchmark. In extensive experiments, our approach shows superiority over other methods. Our project is available at https://foruck.github.io/KP/.
- Abstract(参考訳): 動作理解は、動作意味論と行動意味論の信頼できるマッピングを確立することを目的としているが、これは多対多の問題である。
抽象的なアクションセマンティック(つまりウォーキングフォワード)は、知覚的に多様な動き(腕を上げたり振ったり)によって伝達される。
対照的に、動きは、その文脈と意図に異なる意味論を運ぶことができる。
これにより、両者のエレガントなマッピングが困難になる。
以前の試みでは信頼性に制限のあるダイレクトマッピングパラダイムを採用していた。
また、現在の自動メトリクスは、動作とアクションセマンティクスの一貫性を確実に評価することができない。
この2つのモード間の大きなギャップとして,これらの問題の根源を同定する。
このギャップを緩和するために、適切な抽象化、解釈可能性、一般性を備えた人の動きの客観的な運動的事実を捉えるKP(Kinematic Phrases)を提案する。
KPに基づいて、動作知識ベースを統一し、動作理解システムを構築することができる。
一方、KPは、運動から主観バイアスのないテキスト記述への自動変換が可能であり、新しいホワイトボックスモーション生成ベンチマークとしてKPG(Kinematic Prompt Generation)を刺激する。
広範囲な実験において,本手法は他の手法よりも優れていることを示す。
私たちのプロジェクトはhttps://foruck.github.io/KP/で利用可能です。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - Guided Attention for Interpretable Motion Captioning [0.0]
本稿では,解釈可能性を重視してテキスト生成品質を向上させる新しいアーキテクチャを提案する。
そこで本研究では,人間ライクな推論を促すために,トレーニング中の注意を導く方法を提案する。
我々は解釈可能性を活用して人間の動きに関するきめ細かい情報を導き出す。
論文 参考訳(メタデータ) (2023-10-11T09:14:30Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Audio2Gestures: Generating Diverse Gestures from Audio [28.026220492342382]
本稿では、モーダルなラテント符号を共有コードとモーション固有コードに分割することで、ワン・ツー・マンの音声・モーションマッピングを明示的にモデル化することを提案する。
本手法は,従来の最先端手法よりも現実的で多様な動作を生成する。
論文 参考訳(メタデータ) (2023-01-17T04:09:58Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。