論文の概要: Multimodal Generative AI with Autoregressive LLMs for Human Motion Understanding and Generation: A Way Forward
- arxiv url: http://arxiv.org/abs/2506.03191v1
- Date: Sat, 31 May 2025 11:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.929802
- Title: Multimodal Generative AI with Autoregressive LLMs for Human Motion Understanding and Generation: A Way Forward
- Title(参考訳): 人間の動作理解と生成のための自己回帰型LLMを用いたマルチモーダル生成AI
- Authors: Muhammad Islam, Tao Huang, Euijoon Ahn, Usman Naseem,
- Abstract要約: 本稿では,多モード生成人工知能(GenAI)と自己回帰型大規模言語モデル(LLM)を人間の動作理解と生成に利用することに焦点を当てる。
新たな手法、アーキテクチャ、および現実的で汎用的なモーション合成を前進させる可能性についての洞察を提供する。
本研究は,医療,ヒューマノイド,ゲーム,アニメーション,アシスト技術などの応用において,テキスト・トゥ・モーションのGenAIとLLMアーキテクチャの変革の可能性を示すものである。
- 参考スコア(独自算出の注目度): 8.470241117250243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an in-depth survey on the use of multimodal Generative Artificial Intelligence (GenAI) and autoregressive Large Language Models (LLMs) for human motion understanding and generation, offering insights into emerging methods, architectures, and their potential to advance realistic and versatile motion synthesis. Focusing exclusively on text and motion modalities, this research investigates how textual descriptions can guide the generation of complex, human-like motion sequences. The paper explores various generative approaches, including autoregressive models, diffusion models, Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and transformer-based models, by analyzing their strengths and limitations in terms of motion quality, computational efficiency, and adaptability. It highlights recent advances in text-conditioned motion generation, where textual inputs are used to control and refine motion outputs with greater precision. The integration of LLMs further enhances these models by enabling semantic alignment between instructions and motion, improving coherence and contextual relevance. This systematic survey underscores the transformative potential of text-to-motion GenAI and LLM architectures in applications such as healthcare, humanoids, gaming, animation, and assistive technologies, while addressing ongoing challenges in generating efficient and realistic human motion.
- Abstract(参考訳): 本稿では,多モード生成人工知能(GenAI)と自己回帰型大言語モデル(LLM)を人間の動作理解と生成に用い,新たな手法,アーキテクチャ,および現実的で汎用的な動き合成を前進させる可能性について,詳細な調査を行う。
本研究は、テキストと動きのモダリティにのみ焦点をあて、テキスト記述が複雑な人間のような動き列の生成をガイドする方法を考察する。
本稿では, 自己回帰モデル, 拡散モデル, GAN(Generative Adversarial Networks), 変分オートエンコーダ(VAE), 変分オートエンコーダ(Transformer-based Model) など, 動作品質, 計算効率, 適応性の観点から, その強みと限界を分析することによって, 様々な生成手法について検討する。
これは、テキスト条件付モーション生成の最近の進歩を強調しており、テキスト入力はより精度の高いモーション出力を制御および洗練するために使用される。
LLMの統合により、これらのモデルをさらに強化し、命令と動きのセマンティックアライメントを可能にし、コヒーレンスと文脈関連性を改善した。
この体系的な調査は、医療、ヒューマノイド、ゲーム、アニメーション、補助技術といったアプリケーションにおけるテキスト・トゥ・モーションのGenAIとLLMアーキテクチャの変革の可能性を強調し、効率的で現実的な人間の動きを生み出すための継続的な課題に対処する。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - CASIM: Composite Aware Semantic Injection for Text to Motion Generation [15.53049009014166]
テキストとモーショントークンの動的対応を学習する複合認識型セマンティックインジェクション機構を提案する。
HumanML3DとKITベンチマークの実験では、CASIMは動きの質、テキスト・モーションアライメント、検索スコアを一貫して改善している。
論文 参考訳(メタデータ) (2025-02-04T07:22:07Z) - COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。
我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。
我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2024-09-30T17:02:13Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [30.245348014602577]
本稿では,テキストからの映像生成の進化について論じる。まずMNISTの数値をアニメーション化し,ソラで物理世界をシミュレートする。
Soraが生成するビデオの欠点に関するレビューでは、ビデオ生成の様々な実現可能な側面において、より深い研究を求める声が浮き彫りになっている。
テキスト・ビデオ・ジェネレーションの研究は、まだ初期段階であり、学際的な研究コミュニティからの貢献が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-03-08T07:58:13Z) - When Large Language Models Meet Evolutionary Algorithms: Potential Enhancements and Challenges [50.280704114978384]
事前訓練された大規模言語モデル(LLM)は、自然なテキストを生成する強力な能力を示す。
進化的アルゴリズム(EA)は、複雑な現実世界の問題に対する多様な解決策を発見できる。
論文 参考訳(メタデータ) (2024-01-19T05:58:30Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。