Fugu-MT 論文翻訳(概要): MotionScript: Natural Language Descriptions for Expressive 3D Human Motions

論文の概要: MotionScript: Natural Language Descriptions for Expressive 3D Human Motions

arxiv url: http://arxiv.org/abs/2312.12634v2
Date: Sun, 29 Sep 2024 20:24:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 23:25:00.158987
Title: MotionScript: Natural Language Descriptions for Expressive 3D Human Motions
Title（参考訳）: MotionScript: 表現力のある3Dヒューマンモーションのための自然言語記述
Authors: Payam Jome Yazdian, Eric Liu, Rachel Lagasse, Hamid Mohammadi, Li Cheng, Angelica Lim,
Abstract要約: MotionScriptはモーション・トゥ・テキスト変換アルゴリズムであり、人体の動きの自然言語表現である。実験により、テキスト・トゥ・モーションタスクに適用されたMotionScript記述により、大規模な言語モデルが、以前は目に見えなかった複雑な動作を生成できることが実証された。
参考スコア（独自算出の注目度）: 8.050271017133076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes MotionScript, a motion-to-text conversion algorithm and natural language representation for human body motions. MotionScript provides more detailed and accurate descriptions of human body movements compared to previous natural language methods. Most motion datasets focus on basic, well-defined actions, with limited variation in expression (e.g., sitting, walking, dribbling a ball). But for expressive actions that contain a diversity of movements in the class (e.g. being sad, dancing), or for actions outside the domain of standard motion capture datasets (e.g. stylistic walking, sign-language, interactions with animals), more specific and granular natural language descriptions are needed. Our proposed MotionScript descriptions differ from existing natural language representations in that it provides detailed descriptions in natural language rather than simple action labels or generalized captions. To the best of our knowledge, this is the first attempt at translating 3D motions to natural language descriptions without requiring training data. Our experiments demonstrate that MotionScript descriptions, when applied to text-to-motion tasks, enable large language models to generate complex, previously unseen motions. Additional examples, dataset, and code can be accessed at https://pjyazdian.github.io/MotionScript
Abstract（参考訳）: 本稿では、人体の動きに対するモーション・トゥ・テキスト変換アルゴリズムと自然言語表現であるMotionScriptを提案する。 MotionScriptは、従来の自然言語法と比較して、人間の身体の動きをより詳細に正確に記述する。ほとんどのモーションデータセットは、表現の変化(例えば、座ったり、歩いたり、ボールをドリブルしたり)に制限のある、基本的な、明確に定義されたアクションに焦点を当てている。しかし、クラス内のさまざまな動き(例えば悲しい、踊っている、など)を含む表現的な行動や、標準的なモーションキャプチャーデータセット(例えば、スタイリスティックウォーキング、手話、動物との相互作用)の領域外の行動には、より具体的できめ細かな自然言語記述が必要である。提案するMotionScript記述は,単純なアクションラベルや一般化キャプションではなく,自然言語で詳細な記述を提供するという点で,既存の自然言語表現とは異なる。我々の知る限りでは、これは訓練データを必要としない3Dモーションを自然言語記述に翻訳する最初の試みである。実験により、テキスト・トゥ・モーションタスクに適用されたMotionScript記述により、大規模な言語モデルが、以前は目に見えなかった複雑な動作を生成できることが実証された。追加の例、データセット、コードはhttps://pjyazdian.github.io/MotionScriptでアクセスできます。

関連論文リスト

Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文参考訳（メタデータ） (2025-03-20T10:00:22Z)
Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文参考訳（メタデータ） (2024-12-17T17:34:52Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
LocoMotion: Learning Motion-Focused Video-Language Representations [45.33444862034461]
局所物体の動きと時間的進行を記述した動きに着目したキャプションからLocoMotionを提案する。ビデオに合成動作を追加し、これらの動きのパラメータを用いて対応するキャプションを生成することで、これを実現する。
論文参考訳（メタデータ） (2024-10-15T19:33:57Z)
Sitcom-Crafter: A Plot-Driven Human Motion Generation System in 3D Scenes [90.39860012099393]
Sitcom-Crafterは3D空間における人間のモーション生成システムである。機能生成モジュールの中心は、我々の新しい3Dシーン対応ヒューマン・ヒューマン・インタラクションモジュールである。拡張モジュールは、コマンド生成のためのプロット理解、異なるモーションタイプのシームレスな統合のためのモーション同期を含む。
論文参考訳（メタデータ） (2024-10-14T17:56:19Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。 FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文参考訳（メタデータ） (2024-03-20T11:38:30Z)
Plan, Posture and Go: Towards Open-World Text-to-Motion Generation [43.392549755386135]
Pro-Motion という分断型フレームワークを提案する。モーションプランナー、姿勢ディフューザ、go-diffuserの3つのモジュールで構成されている。 Pro-Motionは複雑なオープンワールドプロンプトから多様でリアルな動きを生成することができる。
論文参考訳（メタデータ） (2023-12-22T17:02:45Z)
LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2023-12-05T17:59:52Z)
MotionGPT: Human Motion as a Foreign Language [47.21648303282788]
人間の動きは人間の言語に似た意味的な結合を示し、しばしば身体言語の一種として認識される。大規模モーションモデルで言語データを融合することにより、動き言語事前学習は、動きに関連したタスクのパフォーマンスを向上させることができる。我々は,複数の動作関連タスクを処理するために,統一的で汎用的でユーザフレンドリな動作言語モデルであるMotionGPTを提案する。
論文参考訳（メタデータ） (2023-06-26T15:53:02Z)
HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文参考訳（メタデータ） (2022-10-18T10:14:11Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)
Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (2022-08-11T02:57:30Z)
Synthesis of Compositional Animations from Textual Descriptions [54.85920052559239]
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
論文参考訳（メタデータ） (2021-03-26T18:23:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。