Fugu-MT 論文翻訳(概要): KinMo: Kinematic-aware Human Motion Understanding and Generation

論文の概要: KinMo: Kinematic-aware Human Motion Understanding and Generation

arxiv url: http://arxiv.org/abs/2411.15472v1
Date: Sat, 23 Nov 2024 06:50:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.43096
Title: KinMo: Kinematic-aware Human Motion Understanding and Generation
Title（参考訳）: KinMo: キネマティックを意識した人間の動作理解と生成
Authors: Pengfei Zhang, Pinxin Liu, Hyeongwoo Kim, Pablo Garrido, Bindita Chaudhuri,
Abstract要約: テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。動作を別個の体節群運動に分解する動き表現を提案する。
参考スコア（独自算出の注目度）: 6.962697597686156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controlling human motion based on text presents an important challenge in computer vision. Traditional approaches often rely on holistic action descriptions for motion synthesis, which struggle to capture subtle movements of local body parts. This limitation restricts the ability to isolate and manipulate specific movements. To address this, we propose a novel motion representation that decomposes motion into distinct body joint group movements and interactions from a kinematic perspective. We design an automatic dataset collection pipeline that enhances the existing text-motion benchmark by incorporating fine-grained local joint-group motion and interaction descriptions. To bridge the gap between text and motion domains, we introduce a hierarchical motion semantics approach that progressively fuses joint-level interaction information into the global action-level semantics for modality alignment. With this hierarchy, we introduce a coarse-to-fine motion synthesis procedure for various generation and editing downstream applications. Our quantitative and qualitative experiments demonstrate that the proposed formulation enhances text-motion retrieval by improving joint-spatial understanding, and enables more precise joint-motion generation and control. Project Page: {\small\url{https://andypinxinliu.github.io/KinMo/}}
Abstract（参考訳）: テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。伝統的なアプローチは、しばしば局所的な身体部分の微妙な動きを捉えるのに苦労する運動合成のための全体論的な行動記述に頼っている。この制限は特定の動きを分離し操作する能力を制限する。そこで本研究では,運動を別個の身体関節群運動に分解し,運動学的な視点から相互作用する動き表現を提案する。局所的な局所的な共同動作と相互作用記述を組み込むことで、既存のテキスト移動ベンチマークを強化する自動データセット収集パイプラインを設計する。テキストと動作領域のギャップを埋めるため, 階層的な動作セマンティクスアプローチを導入し, 協調レベルの相互作用情報をグローバルな行動レベルのセマンティクスに段階的に融合させ, モダリティアライメントを実現する。この階層構造により、下流アプリケーションの生成と編集のための粗い動き合成手順を導入する。定量的および定性的な実験により,提案した定式化は,関節空間理解を改善し,より正確な関節運動生成と制御を可能にした。 Project Page: {\small\url{https://andypinxinliu.github.io/KinMo/}}

関連論文リスト

MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities [36.42160163142448]
MG-MotionLLMは多粒運動の理解と生成のための統一運動言語モデルである。本稿では,新しい補助課題を取り入れた包括的多粒度学習手法を提案する。 MG-MotionLLMは,従来のテキスト・トゥ・モーションタスクやモーション・トゥ・テキストタスクにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2025-04-03T10:53:41Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文参考訳（メタデータ） (2024-10-17T17:31:24Z)
Autonomous Character-Scene Interaction Synthesis from Text Instruction [45.255215402142596]
そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
論文参考訳（メタデータ） (2024-10-04T06:58:45Z)
TextIM: Part-aware Interactive Motion Synthesis from Text [25.91739105467082]
TextIMは、TEXT駆動のヒューマンインタラクティブモーションを合成するための新しいフレームワークである。我々のアプローチは、人間の脳として機能する大きな言語モデルを利用して、相互作用する人間の身体部分を特定する。トレーニングと評価のために,HUMANML3Dからインタラクティブな動きを慎重に選択し,再ラベルし,特殊なデータセットを開発した。
論文参考訳（メタデータ） (2024-08-06T17:08:05Z)
Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation [52.87672306545577]
既存の動き生成法は主に大域運動の直接合成に焦点を当てている。本研究では,局所動作を微粒化制御信号として利用することにより,グローバルな動き生成を容易にする局所動作誘導型動き拡散モデルを提案する。本手法は,様々な局所動作と連続誘導重み調整をシームレスに組み合わせる柔軟性を提供する。
論文参考訳（メタデータ） (2024-07-15T08:35:00Z)
Infinite Motion: Extended Motion Generation via Long Text Instructions [51.61117351997808]
『無限運動』は、長文を長文から拡張運動生成に活用する新しいアプローチである。我々のモデルの主な革新は、任意の長さのテキストを入力として受け入れることである。テキストのタイムスタンプ設計を取り入れ、生成されたシーケンス内のローカルセグメントの正確な編集を可能にする。
論文参考訳（メタデータ） (2024-07-11T12:33:56Z)
FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis [65.85686550683806]
そこで本稿では, 条件付き動作分布を用いて, 単独動作と多人数動作を統一する動き生成手法を提案する。筆者らの枠組みに基づいて,現在ある一対一動作空間制御手法をシームレスに統合し,多対一動作の正確な制御を実現する。
論文参考訳（メタデータ） (2024-05-24T17:57:57Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文参考訳（メタデータ） (2023-11-02T06:20:23Z)
SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。 CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-31T09:58:11Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文参考訳（メタデータ） (2022-12-08T18:59:48Z)
MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文参考訳（メタデータ） (2022-06-16T09:06:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。