論文の概要: BodyShapeGPT: SMPL Body Shape Manipulation with LLMs
- arxiv url: http://arxiv.org/abs/2410.03556v1
- Date: Wed, 18 Sep 2024 16:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:29:56.807470
- Title: BodyShapeGPT: SMPL Body Shape Manipulation with LLMs
- Title(参考訳): BodyShapeGPT:LSMを用いたSMPL体形操作
- Authors: Baldomero R. Árbol, Dan Casas,
- Abstract要約: LLM(Large Language Models)は、文学的な物語から、さまざまな分野の知識の専門的な応答まで、多様なテキストを生成することができる。
本稿では,人間の身体的記述を識別するための微調整LDMを用いて,SMPL-Xモデルを用いてアバターの正確な表現を作成する。
我々は,LSMがSMPLの形状空間を理解し,操作するために訓練できることを示し,自然言語による3次元人体形状の制御を可能にする。
- 参考スコア(独自算出の注目度): 7.3060422541212615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI models provide a wide range of tools capable of performing complex tasks in a fraction of the time it would take a human. Among these, Large Language Models (LLMs) stand out for their ability to generate diverse texts, from literary narratives to specialized responses in different fields of knowledge. This paper explores the use of fine-tuned LLMs to identify physical descriptions of people, and subsequently create accurate representations of avatars using the SMPL-X model by inferring shape parameters. We demonstrate that LLMs can be trained to understand and manipulate the shape space of SMPL, allowing the control of 3D human shapes through natural language. This approach promises to improve human-machine interaction and opens new avenues for customization and simulation in virtual environments.
- Abstract(参考訳): 生成型AIモデルは、人間にかかる時間のほんの少しで複雑なタスクを実行できる幅広いツールを提供する。
これらのうち、Large Language Models (LLM) は、文学的な物語から様々な分野の知識の専門的な応答まで、多種多様なテキストを生成する能力で際立っている。
本稿では,人物の身体的記述を識別するための微調整LDMを用いて,SMPL-Xモデルを用いてアバターの正確な表現を作成し,形状パラメーターを推定する。
我々は,LSMがSMPLの形状空間を理解し,操作するために訓練できることを示し,自然言語による3次元人体形状の制御を可能にする。
このアプローチは、人間と機械のインタラクションを改善し、仮想環境におけるカスタマイズとシミュレーションのための新しい道を開くことを約束する。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Large Language Models as Instruments of Power: New Regimes of Autonomous Manipulation and Control [0.0]
大規模言語モデル(LLM)は様々な修辞スタイルを再現し、幅広い感情を表現したテキストを生成する。
我々は,LSMの迅速かつ大半非規制導入によって可能となった,過小評価された社会的危害について考察する。
論文 参考訳(メタデータ) (2024-05-06T19:52:57Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - Personality Traits in Large Language Models [44.908741466152215]
コミュニケーションの有効性を決定する重要な要因は人格である。
広範に使われている大規模言語モデルにおいて,パーソナリティテストの管理と検証を行う包括的手法を提案する。
本稿では,計測・形成手法の応用と倫理的意義,特に責任あるAIについて論じる。
論文 参考訳(メタデータ) (2023-07-01T00:58:51Z) - Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback [20.151147653552155]
大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-05-25T07:43:39Z) - Visualization in the Era of Artificial Intelligence: Experiments for
Creating Structural Visualizations by Prompting Large Language Models [0.0]
大規模言語モデル(LLM)は、テキスト入力から人間に似たテキストや画像を生成することによって、自然言語処理に革命をもたらした。
LLMが2D/3Dビジュアライゼーションを生成できることを示す最初の実験を報告した。
論文 参考訳(メタデータ) (2023-05-05T09:16:59Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - DASH: Modularized Human Manipulation Simulation with Vision and Language
for Embodied AI [25.144827619452105]
本稿では,動的・自律的シミュレーション人間(DASH)について述べる。
DASHシステムを視覚モジュール、言語モジュール、および2つのスキルカテゴリの操作モジュールに分解することにより、DASHがランダムに配置されたタスクを高い成功率で実行できるように、異なるモジュールに対して解析的および機械学習テクニックを混在させ、マッチングすることができる。
論文 参考訳(メタデータ) (2021-08-28T00:22:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。