Fugu-MT 論文翻訳(概要): Real-time Animation Generation and Control on Rigged Models via Large Language Models

論文の概要: Real-time Animation Generation and Control on Rigged Models via Large Language Models

arxiv url: http://arxiv.org/abs/2310.17838v2
Date: Thu, 15 Feb 2024 18:56:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 23:32:49.418297
Title: Real-time Animation Generation and Control on Rigged Models via Large Language Models
Title（参考訳）: 大規模言語モデルによるリグジットモデルの実時間アニメーション生成と制御
Authors: Han Huang, Fernanda De La Torre, Cathy Mengying Fang, Andrzej Banburski-Fahey, Judith Amores, Jaron Lanier
Abstract要約: 本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
参考スコア（独自算出の注目度）: 50.034712575541434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a novel method for real-time animation control and generation on rigged models using natural language input. First, we embed a large language model (LLM) in Unity to output structured texts that can be parsed into diverse and realistic animations. Second, we illustrate LLM's potential to enable flexible state transition between existing animations. We showcase the robustness of our approach through qualitative results on various rigged models and motions.
Abstract（参考訳）: 本稿では,自然言語入力を用いたリップモデルを用いたリアルタイムアニメーション制御と生成手法を提案する。まず,大規模言語モデル(LLM)をUnityに組み込んで,多種多様なリアルなアニメーションに解析可能な構造化テキストを出力する。次に,既存のアニメーション間の柔軟な状態遷移を可能にするllmの可能性について述べる。各種剛体モデルと運動の定性的な結果を通じて,我々のアプローチの堅牢性を示す。

関連論文リスト

X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文参考訳（メタデータ） (2025-01-17T08:10:53Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion [8.94802080815133]
MoRAGは、テキストベースの人間動作生成のための、新しい多部融合に基づく検索強化生成戦略である。得られた動きの空間的組成から多様なサンプルを作成する。我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し、モーション拡散モデルの性能を向上させることができる。
論文参考訳（メタデータ） (2024-09-18T17:03:30Z)
Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文参考訳（メタデータ） (2024-05-26T23:56:45Z)
LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文参考訳（メタデータ） (2024-04-21T07:13:56Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning [92.33690050667475]
AnimateDiffは、モデル固有のチューニングを必要とせずに、パーソナライズされたT2Iモデルをアニメーションするためのフレームワークである。我々は,AnimateDiffの軽量微調整技術であるMotionLoRAを提案する。その結果,これらのモデルが視覚的品質と動きの多様性を保ちながら,時間的にスムーズなアニメーションクリップを生成するのに有効であることが示唆された。
論文参考訳（メタデータ） (2023-07-10T17:34:16Z)
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文参考訳（メタデータ） (2023-05-16T17:58:43Z)
FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。 FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文参考訳（メタデータ） (2022-09-01T10:34:57Z)
Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文参考訳（メタデータ） (2022-08-11T02:57:30Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。