論文の概要: Semantics-aware Motion Retargeting with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.01964v2
- Date: Tue, 9 Jan 2024 05:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 19:33:41.125479
- Title: Semantics-aware Motion Retargeting with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いたセマンティックス対応運動認識
- Authors: Haodong Zhang, ZhiKe Chen, Haocheng Xu, Lei Hao, Xiaofei Wu, Songcen
Xu, Zhensong Zhang, Yue Wang, Rong Xiong
- Abstract要約: 本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。
高レベルな動作セマンティクスは、視覚言語モデルに描画された画像を与え、抽出したセマンティクスの埋め込みを調整することで、動作プロセスに組み込む。
実験結果から,提案手法が高精度な動作セマンティクスを維持しつつ,高品質な動作結果の生成に有効であることが示された。
- 参考スコア(独自算出の注目度): 20.271666786433748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing and preserving motion semantics is essential to motion retargeting
between animation characters. However, most of the previous works neglect the
semantic information or rely on human-designed joint-level representations.
Here, we present a novel Semantics-aware Motion reTargeting (SMT) method with
the advantage of vision-language models to extract and maintain meaningful
motion semantics. We utilize a differentiable module to render 3D motions. Then
the high-level motion semantics are incorporated into the motion retargeting
process by feeding the vision-language model with the rendered images and
aligning the extracted semantic embeddings. To ensure the preservation of
fine-grained motion details and high-level semantics, we adopt a two-stage
pipeline consisting of skeleton-aware pre-training and fine-tuning with
semantics and geometry constraints. Experimental results show the effectiveness
of the proposed method in producing high-quality motion retargeting results
while accurately preserving motion semantics. Project page can be found at
https://sites.google.com/view/smtnet.
- Abstract(参考訳): アニメーションキャラクタ間の動き再ターゲティングには,モーションセマンティクスのキャプチャと保存が不可欠である。
しかし、以前の作品の多くは、意味的な情報を無視したり、人間によって設計されたジョイントレベル表現に依存している。
本稿では,視覚言語モデルを利用して意味のある動作意味論を抽出・維持する新しい意味論認識モーションリターゲティング(smt)手法を提案する。
微分可能なモジュールを用いて3Dモーションを描画する。
次に、視覚言語モデルにレンダリング画像を与え、抽出したセマンティック埋め込みを整合させることにより、高レベルな動きセマンティクスをモーションリターゲティングプロセスに組み込む。
細粒度動作の詳細と高レベルセマンティクスの保持を確保するため,スケルトン対応事前学習と,セマンティクスと幾何学制約による微調整からなる2段階パイプラインを採用する。
提案手法は,高精度な動作セマンティクスを維持しつつ,高品質な動き再ターゲティング結果を生成するのに有効であることを示す。
プロジェクトページはhttps://sites.google.com/view/smtnetにある。
関連論文リスト
- Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。
大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。
我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文 参考訳(メタデータ) (2023-06-26T15:53:02Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [65.82277526057294]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - SportsCap: Monocular 3D Human Motion Capture and Fine-grained
Understanding in Challenging Sports Videos [40.19723456533343]
SportsCap - 3Dの人間の動きを同時に捉え、モノラルな挑戦的なスポーツビデオ入力からきめ細かなアクションを理解するための最初のアプローチを提案する。
本手法は,組込み空間に先立って意味的かつ時間的構造を持つサブモーションを,モーションキャプチャと理解に活用する。
このようなハイブリッドな動き情報に基づいて,マルチストリーム空間時空間グラフ畳み込みネットワーク(ST-GCN)を導入し,詳細なセマンティックアクション特性を予測する。
論文 参考訳(メタデータ) (2021-04-23T07:52:03Z) - Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。
提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。
私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文 参考訳(メタデータ) (2020-07-20T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。