Fugu-MT 論文翻訳(概要): MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations

論文の概要: MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations

arxiv url: http://arxiv.org/abs/2310.10198v3
Date: Tue, 19 Dec 2023 16:44:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 22:37:16.322433
Title: MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations
Title（参考訳）: MoConVQ: スケーラブル離散表現による統一物理に基づく運動制御
Authors: Heyuan Yao, Zhenhua Song, Yuyang Zhou, Tenglong Ao, Baoquan Chen, Libin Liu
Abstract要約: MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
参考スコア（独自算出の注目度）: 25.630268570049708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present MoConVQ, a novel unified framework for physics-based motion control leveraging scalable discrete representations. Building upon vector quantized variational autoencoders (VQ-VAE) and model-based reinforcement learning, our approach effectively learns motion embeddings from a large, unstructured dataset spanning tens of hours of motion examples. The resultant motion representation not only captures diverse motion skills but also offers a robust and intuitive interface for various applications. We demonstrate the versatility of MoConVQ through several applications: universal tracking control from various motion sources, interactive character control with latent motion representations using supervised learning, physics-based motion generation from natural language descriptions using the GPT framework, and, most interestingly, seamless integration with large language models (LLMs) with in-context learning to tackle complex and abstract tasks.
Abstract（参考訳）: 本稿では,スケーラブルな離散表現を用いた物理ベースの運動制御のための新しい統一フレームワークであるmoconvqを提案する。ベクトル量子化変分オートエンコーダ(vq-vae)とモデルに基づく強化学習に基づいて,数万時間の動作例にまたがる大規模非構造化データセットからの動作埋め込みを効果的に学習する。結果として得られるモーション表現は、多様なモーションスキルをキャプチャするだけでなく、さまざまなアプリケーションに対して堅牢で直感的なインターフェースを提供する。様々なモーションソースからのユニバーサルトラッキング制御、教師付き学習を用いた潜在モーション表現による対話型文字制御、gptフレームワークを用いた自然言語記述からの物理ベースのモーション生成、そして最も興味深いのは、複雑で抽象的なタスクに取り組むためのコンテキスト内学習を備えた大規模言語モデル(llm)とのシームレスな統合である。

関連論文リスト

Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文参考訳（メタデータ） (2025-01-02T18:59:45Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。 VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文参考訳（メタデータ） (2024-10-08T02:23:53Z)
MaskedMimic: Unified Physics-Based Character Control Through Masked Motion Inpainting [38.15158715821526]
MaskedMimicは、物理に基づく文字制御を一般的なモーションインペイント問題として定式化する新しいアプローチである。 MaskedMimicは、モーションインペイントによる文字制御を統一することにより、多目的な仮想文字を生成する。これらのキャラクターは複雑なシーンに動的に適応し、必要に応じて多様な動きを構成でき、よりインタラクティブで没入的な体験を可能にする。
論文参考訳（メタデータ） (2024-09-22T11:10:59Z)
MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls [30.487510829107908]
プラグ・アンド・プレイ・マルチモーダル制御による全身動作を実現する統合拡散変換器であるMotionCraftを提案する。我々のフレームワークは、テキスト・ツー・モーション・セマンティック・トレーニングの第1段階から始まる粗大な訓練戦略を採用している。本稿では,SMPL-Xフォーマットを統一したマルチモーダル全体モーション生成ベンチマークMC-Benchを紹介する。
論文参考訳（メタデータ） (2024-07-30T18:57:06Z)
Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文参考訳（メタデータ） (2024-05-23T17:59:40Z)
DiverseMotion: Towards Diverse Human Motion Generation via Discrete Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文参考訳（メタデータ） (2023-09-04T05:43:48Z)
MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2023-06-05T04:24:11Z)
CALM: Conditional Adversarial Latent Models for Directable Virtual Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文参考訳（メタデータ） (2023-05-02T09:01:44Z)
MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文参考訳（メタデータ） (2022-06-16T09:06:25Z)
UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。 UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文参考訳（メタデータ） (2020-11-30T18:51:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。