Fugu-MT 論文翻訳(概要): Semantics-aware Motion Retargeting with Vision-Language Models

論文の概要: Semantics-aware Motion Retargeting with Vision-Language Models

arxiv url: http://arxiv.org/abs/2312.01964v2
Date: Tue, 9 Jan 2024 05:46:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 19:33:41.125479
Title: Semantics-aware Motion Retargeting with Vision-Language Models
Title（参考訳）: 視覚言語モデルを用いたセマンティックス対応運動認識
Authors: Haodong Zhang, ZhiKe Chen, Haocheng Xu, Lei Hao, Xiaofei Wu, Songcen Xu, Zhensong Zhang, Yue Wang, Rong Xiong
Abstract要約: 本稿では,意味ある動作意味論を抽出し,維持するために,視覚言語モデルを利用したセマンティックス・アウェア・モーション・リターゲティング(SMT)手法を提案する。高レベルな動作セマンティクスは、視覚言語モデルに描画された画像を与え、抽出したセマンティクスの埋め込みを調整することで、動作プロセスに組み込む。実験結果から,提案手法が高精度な動作セマンティクスを維持しつつ,高品質な動作結果の生成に有効であることが示された。
参考スコア（独自算出の注目度）: 20.271666786433748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Capturing and preserving motion semantics is essential to motion retargeting between animation characters. However, most of the previous works neglect the semantic information or rely on human-designed joint-level representations. Here, we present a novel Semantics-aware Motion reTargeting (SMT) method with the advantage of vision-language models to extract and maintain meaningful motion semantics. We utilize a differentiable module to render 3D motions. Then the high-level motion semantics are incorporated into the motion retargeting process by feeding the vision-language model with the rendered images and aligning the extracted semantic embeddings. To ensure the preservation of fine-grained motion details and high-level semantics, we adopt a two-stage pipeline consisting of skeleton-aware pre-training and fine-tuning with semantics and geometry constraints. Experimental results show the effectiveness of the proposed method in producing high-quality motion retargeting results while accurately preserving motion semantics. Project page can be found at https://sites.google.com/view/smtnet.
Abstract（参考訳）: アニメーションキャラクタ間の動き再ターゲティングには,モーションセマンティクスのキャプチャと保存が不可欠である。しかし、以前の作品の多くは、意味的な情報を無視したり、人間によって設計されたジョイントレベル表現に依存している。本稿では,視覚言語モデルを利用して意味のある動作意味論を抽出・維持する新しい意味論認識モーションリターゲティング(smt)手法を提案する。微分可能なモジュールを用いて3Dモーションを描画する。次に、視覚言語モデルにレンダリング画像を与え、抽出したセマンティック埋め込みを整合させることにより、高レベルな動きセマンティクスをモーションリターゲティングプロセスに組み込む。細粒度動作の詳細と高レベルセマンティクスの保持を確保するため,スケルトン対応事前学習と,セマンティクスと幾何学制約による微調整からなる2段階パイプラインを採用する。提案手法は,高精度な動作セマンティクスを維持しつつ,高品質な動き再ターゲティング結果を生成するのに有効であることを示す。プロジェクトページはhttps://sites.google.com/view/smtnetにある。

関連論文リスト

MotionShot: Adaptive Motion Transfer across Arbitrary Objects for Text-to-Video Generation [23.051430600796277]
MotionShotは、参照ターゲット対応をきめ細かい方法で解析するためのフレームワークである。顕著な外観や構造の違いがあっても、物体を横切る動きをコヒーレントに転送することができる。
論文参考訳（メタデータ） (2025-07-22T07:51:05Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction [20.89960239295474]
本稿では,関連するタスク,動作類似度予測を導入し,マルチタスク学習パラダイムを提案する。我々は、意味論的意味のある表現の学習を促進するために、動きの編集と動きの類似性予測を共同で訓練する。実験は、アライメントと忠実さの両面において、我々のアプローチの最先端性能を実証した。
論文参考訳（メタデータ） (2025-03-23T21:29:37Z)
KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。動作を別個の体節群運動に分解する動き表現を提案する。
論文参考訳（メタデータ） (2024-11-23T06:50:11Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文参考訳（メタデータ） (2023-11-02T06:20:23Z)
SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。 CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-31T09:58:11Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文参考訳（メタデータ） (2021-12-19T07:52:05Z)
Hierarchical Contrastive Motion Learning for Video Action Recognition [100.9807616796383]
本稿では,映像フレームから効果的な動き表現を抽出する自己教師型学習フレームワークである階層型コントラスト学習を提案する。提案手法は,ネットワーク内の異なる抽象レベルに対応する動作特徴の階層構造を段階的に学習する。私たちのモーション学習モジュールは軽量で柔軟性があり、様々なバックボーンネットワークに組み込むことができます。
論文参考訳（メタデータ） (2020-07-20T17:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。