論文の概要: Bridging the Gap between Human Motion and Action Semantics via Kinematic
Phrases
- arxiv url: http://arxiv.org/abs/2310.04189v2
- Date: Wed, 11 Oct 2023 08:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:52:17.412240
- Title: Bridging the Gap between Human Motion and Action Semantics via Kinematic
Phrases
- Title(参考訳): 運動句による人間の動作と行動意味論のギャップの橋渡し
- Authors: Xinpeng Liu, Yong-Lu Li, Ailing Zeng, Zizheng Zhou, Yang You, Cewu Lu
- Abstract要約: 動作理解の目標は、動作意味論と行動意味論の信頼性の高いマッピングを確立することである。
本研究では,人間の動作の客観的な事実を適切な抽象化,解釈可能性,一般性特性で捉えたKP(Kinematic Phrases)を提案する。
KPをメディエータとして利用することで,動作知識ベースを統一し,動作理解システムを構築することができる。
- 参考スコア(独自算出の注目度): 62.86180961609751
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The goal of motion understanding is to establish a reliable mapping between
motion and action semantics, while it is a challenging many-to-many problem. An
abstract action semantic (i.e., walk forwards) could be conveyed by
perceptually diverse motions (walk with arms up or swinging), while a motion
could carry different semantics w.r.t. its context and intention. This makes an
elegant mapping between them difficult. Previous attempts adopted
direct-mapping paradigms with limited reliability. Also, current automatic
metrics fail to provide reliable assessments of the consistency between motions
and action semantics. We identify the source of these problems as the
significant gap between the two modalities. To alleviate this gap, we propose
Kinematic Phrases (KP) that take the objective kinematic facts of human motion
with proper abstraction, interpretability, and generality characteristics.
Based on KP as a mediator, we can unify a motion knowledge base and build a
motion understanding system. Meanwhile, KP can be automatically converted from
motions and to text descriptions with no subjective bias, inspiring Kinematic
Prompt Generation (KPG) as a novel automatic motion generation benchmark. In
extensive experiments, our approach shows superiority over other methods. Our
code and data would be made publicly available at https://foruck.github.io/KP.
- Abstract(参考訳): 動作理解の目的は、動作意味論と動作意味論の間の信頼できるマッピングを確立することであるが、多対多の問題である。
抽象的なアクションセマンティクス(つまりウォーキングフォワード)は知覚的に多様な動き(腕を上げて歩くか振り回す)によって伝達され、動きはその文脈や意図によって異なるセマンティクスを運ぶことができる。
これにより、両者のエレガントなマッピングが困難になる。
以前の試みでは信頼性の低いダイレクトマッピングパラダイムを採用していた。
また、現在の自動メトリクスは、動作とアクションセマンティクスの一貫性の信頼できる評価を提供していない。
この2つのモード間の大きなギャップとして,これらの問題の根源を同定する。
このギャップを緩和するため,我々は,人間の運動の客観的キネマティックな事実を,適切な抽象化,解釈性,一般性特性で捉えるキネマティックフレーズ(kp)を提案する。
KPを仲介者として利用することで,運動知識ベースを統一し,動作理解システムを構築することができる。
一方、KPは主観バイアスのない動作やテキスト記述から自動的に変換することができ、新しい自動運動生成ベンチマークとしてKPG(Kinematic Prompt Generation)を刺激する。
広範な実験において,本手法は他の手法よりも優れていることを示す。
私たちのコードとデータはhttps://foruck.github.io/KP.comで公開されます。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - Guided Attention for Interpretable Motion Captioning [0.0]
本稿では,解釈可能性を重視してテキスト生成品質を向上させる新しいアーキテクチャを提案する。
そこで本研究では,人間ライクな推論を促すために,トレーニング中の注意を導く方法を提案する。
我々は解釈可能性を活用して人間の動きに関するきめ細かい情報を導き出す。
論文 参考訳(メタデータ) (2023-10-11T09:14:30Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Audio2Gestures: Generating Diverse Gestures from Audio [28.026220492342382]
本稿では、モーダルなラテント符号を共有コードとモーション固有コードに分割することで、ワン・ツー・マンの音声・モーションマッピングを明示的にモデル化することを提案する。
本手法は,従来の最先端手法よりも現実的で多様な動作を生成する。
論文 参考訳(メタデータ) (2023-01-17T04:09:58Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。