Fugu-MT 論文翻訳(概要): Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation

論文の概要: Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation

arxiv url: http://arxiv.org/abs/2211.15603v1
Date: Mon, 28 Nov 2022 17:57:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 20:43:41.204095
Title: Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Zero Shot Action Generation
Title（参考訳）: Action-GPT: 改良および一般化されたゼロショットアクション生成のための大規模言語モデルを活用する
Authors: Sai Shashank Kalakonda, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla
Abstract要約: Action-GPTは、大規模言語モデルをテキストベースのアクション生成モデルに組み込むためのフレームワークである。従来の動作句の代わりに詳細な記述を利用することで、テキストや動き空間のアライメントが向上することを示す。
参考スコア（独自算出の注目度）: 8.753131760384964
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Action-GPT, a plug and play framework for incorporating Large Language Models (LLMs) into text-based action generation models. Action phrases in current motion capture datasets contain minimal and to-the-point information. By carefully crafting prompts for LLMs, we generate richer and fine-grained descriptions of the action. We show that utilizing these detailed descriptions instead of the original action phrases leads to better alignment of text and motion spaces. Our experiments show qualitative and quantitative improvement in the quality of synthesized motions produced by recent text-to-motion models. Code, pretrained models and sample videos will be made available at https://actiongpt.github.io
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)をテキストベースのアクション生成モデルに組み込むためのプラグインおよびプレイフレームワークであるAction-GPTを紹介する。現在のモーションキャプチャデータセットにおけるアクションフレーズは、最小限の情報とポイント情報を含む。 LLMのプロンプトを慎重に作成することにより、アクションのよりリッチできめ細かい記述を生成する。動作句の代わりにこれらの詳細記述を利用することで,テキストと動き空間のアライメントが向上することを示す。本実験は,最近のテキスト・ツー・モーションモデルによる合成運動の質の質的,定量的な改善を示す。コード、事前トレーニングされたモデル、サンプルビデオはhttps://actiongpt.github.ioで入手できる。

関連論文リスト

Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文参考訳（メタデータ） (2024-12-04T07:26:44Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。 LLM(Large Language Models)によるマルチモーダル制御をサポートしている。難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文参考訳（メタデータ） (2024-10-29T05:25:34Z)
Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-04T10:48:54Z)
MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion [8.94802080815133]
MoRAGは、テキストベースの人間動作生成のための、新しい多部融合に基づく検索強化生成戦略である。得られた動きの空間的組成から多様なサンプルを作成する。我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し、モーション拡散モデルの性能を向上させることができる。
論文参考訳（メタデータ） (2024-09-18T17:03:30Z)
MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文参考訳（メタデータ） (2024-08-01T16:58:50Z)
Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。 Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文参考訳（メタデータ） (2024-05-27T09:57:51Z)
Aligning Actions and Walking to LLM-Generated Textual Descriptions [3.1049440318608568]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。本研究は, 動作パターンと歩行パターンの両方を包含して, 動作シーケンスのリッチなテキスト記述を生成するLLMの利用について検討する。
論文参考訳（メタデータ） (2024-04-18T13:56:03Z)
CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。 CoMoは、動きを離散的で意味のあるポーズコードに分解する。自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文参考訳（メタデータ） (2024-03-20T18:11:10Z)
Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。 FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文参考訳（メタデータ） (2024-03-20T11:38:30Z)
OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers [45.808597624491156]
我々は、ゼロショットオープン語彙テキストプロンプトから魅力的な動き生成を可能にする新しいフレームワークOMGを提案する。事前学習の段階では、ドメイン外固有のリッチな動作特性を学習することで、生成能力を向上させる。微調整の段階では、テキストプロンプトを条件情報として組み込んだモーションコントロールネットを導入する。
論文参考訳（メタデータ） (2023-12-14T14:31:40Z)
Real-time Animation Generation and Control on Rigged Models via Large Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文参考訳（メタデータ） (2023-10-27T01:36:35Z)
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文参考訳（メタデータ） (2023-02-20T03:13:45Z)
Compositional Video Synthesis with Action Graphs [112.94651460161992]
アクションのビデオは、空間と時間の豊富な構成構造を含む複雑な信号である。本稿では、アクショングラフと呼ばれるグラフ構造におけるアクションを表現し、新しいアクショングラフ・トゥ・ビデオ合成タスクを提案する。このタスクのための生成モデル(AG2Vid)は、動作と外観の特徴を歪め、アクションのスケジューリング機構を組み込むことで、タイムリーかつ協調的なビデオ生成を容易にする。
論文参考訳（メタデータ） (2020-06-27T09:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。