論文の概要: Action-GPT: Leveraging Large-scale Language Models for Improved and
Generalized Zero Shot Action Generation
- arxiv url: http://arxiv.org/abs/2211.15603v2
- Date: Wed, 30 Nov 2022 13:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:19:00.471373
- Title: Action-GPT: Leveraging Large-scale Language Models for Improved and
Generalized Zero Shot Action Generation
- Title(参考訳): Action-GPT: 改良および一般化されたゼロショットアクション生成のための大規模言語モデルを活用する
- Authors: Sai Shashank Kalakonda, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla
- Abstract要約: Action-GPTは、大規模言語モデルをテキストベースのアクション生成モデルに組み込むためのフレームワークである。
従来の動作句の代わりに詳細な記述を利用することで、テキストや動き空間のアライメントが向上することを示す。
- 参考スコア(独自算出の注目度): 8.753131760384964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Action-GPT, a plug and play framework for incorporating Large
Language Models (LLMs) into text-based action generation models. Action phrases
in current motion capture datasets contain minimal and to-the-point
information. By carefully crafting prompts for LLMs, we generate richer and
fine-grained descriptions of the action. We show that utilizing these detailed
descriptions instead of the original action phrases leads to better alignment
of text and motion spaces. Our experiments show qualitative and quantitative
improvement in the quality of synthesized motions produced by recent
text-to-motion models. Code, pretrained models and sample videos will be made
available at https://actiongpt.github.io
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)をテキストベースのアクション生成モデルに組み込むためのプラグインおよびプレイフレームワークであるAction-GPTを紹介する。
現在のモーションキャプチャデータセットにおけるアクションフレーズは、最小限の情報とポイント情報を含む。
LLMのプロンプトを慎重に作成することにより、アクションのよりリッチできめ細かい記述を生成する。
動作句の代わりにこれらの詳細記述を利用することで,テキストと動き空間のアライメントが向上することを示す。
本実験は,最近のテキスト・ツー・モーションモデルによる合成運動の質の質的,定量的な改善を示す。
コード、事前トレーニングされたモデル、サンプルビデオはhttps://actiongpt.github.ioで入手できる。
関連論文リスト
- MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion [8.94802080815133]
MoRAGは、テキストベースの人間動作生成のための、新しい多部融合に基づく検索強化生成戦略である。
得られた動きの空間的組成から多様なサンプルを作成する。
我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し、モーション拡散モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-18T17:03:30Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Aligning Actions and Walking to LLM-Generated Textual Descriptions [3.1049440318608568]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
本研究は, 動作パターンと歩行パターンの両方を包含して, 動作シーケンスのリッチなテキスト記述を生成するLLMの利用について検討する。
論文 参考訳(メタデータ) (2024-04-18T13:56:03Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。
事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。
微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文 参考訳(メタデータ) (2023-12-14T14:31:40Z) - Real-time Animation Generation and Control on Rigged Models via Large
Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。
大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文 参考訳(メタデータ) (2023-10-27T01:36:35Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。
本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。
このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文 参考訳(メタデータ) (2020-06-27T09:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。