論文の概要: Generating Attribute-Aware Human Motions from Textual Prompt
- arxiv url: http://arxiv.org/abs/2506.21912v1
- Date: Fri, 27 Jun 2025 04:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.091397
- Title: Generating Attribute-Aware Human Motions from Textual Prompt
- Title(参考訳): テキスト・プロンプから属性を考慮した人間の動きの生成
- Authors: Xinghan Wang, Kun Xu, Fei Li, Cao Sheng, Jiazhong Yu, Yadong Mu,
- Abstract要約: 我々は各動作を属性情報とアクションセマンティクスの両方を含むものとして概念化する。
人間の属性からアクションセマンティクスを分離するために、構造因果モデルにインスパイアされた新しいフレームワークが提案されている。
得られたモデルは、ユーザのテキストと属性入力に一致したリアルで属性対応の動作を生成することができる。
- 参考スコア(独自算出の注目度): 28.57025886368254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven human motion generation has recently attracted considerable attention, allowing models to generate human motions based on textual descriptions. However, current methods neglect the influence of human attributes (such as age, gender, weight, and height) which are key factors shaping human motion patterns. This work represents a pilot exploration for bridging this gap. We conceptualize each motion as comprising both attribute information and action semantics, where textual descriptions align exclusively with action semantics. To achieve this, a new framework inspired by Structural Causal Models is proposed to decouple action semantics from human attributes, enabling text-to-semantics prediction and attribute-controlled generation. The resulting model is capable of generating realistic, attribute-aware motion aligned with the user's text and attribute inputs. For evaluation, we introduce HumanAttr, a comprehensive dataset containing attribute annotations for text-motion pairs, setting the first benchmark for attribute-aware text-to-motion generation. Extensive experiments on the new dataset validate our model's effectiveness.
- Abstract(参考訳): テキスト駆動型ヒューマンモーション生成は近年注目されており、モデルがテキスト記述に基づいて人間のモーションを生成することができる。
しかし、現在の手法では、人間の動作パターンを形作る重要な要因である人的特性(年齢、性別、体重、身長など)の影響を無視している。
この研究は、このギャップを埋めるためのパイロット探査を表している。
我々は、各動作を属性情報とアクションセマンティクスの両方を含むものとして概念化し、テキスト記述はアクションセマンティクスにのみ準拠する。
これを実現するために、構造因果モデルにインスパイアされた新しいフレームワークを提案し、人間の属性からアクションセマンティクスを分離し、テキストからセマンティクスの予測と属性制御の生成を可能にする。
得られたモデルは、ユーザのテキストと属性入力に一致したリアルで属性対応の動作を生成することができる。
評価のために,テキスト-モーションペアの属性アノテーションを含む包括的なデータセットであるHumanAttrを導入し,属性対応のテキスト-モーション生成のための最初のベンチマークを設定した。
新しいデータセットに関する大規模な実験は、我々のモデルの有効性を検証する。
関連論文リスト
- A Quantitative Evaluation of the Expressivity of BMI, Pose and Gender in Body Embeddings for Recognition and Identification [56.10719736365069]
我々は,学習した特徴と特定の属性の相互情報として定義された表現性の概念を拡張し,属性のエンコード方法の定量化を行う。
その結果,BMIは最終層において高い表現性を示し,認識におけるその支配的な役割を示していることがわかった。
これらの結果は,ReIDにおける身体属性の中心的役割を示し,属性駆動相関を明らかにするための原則的アプローチを確立した。
論文 参考訳(メタデータ) (2025-03-09T05:15:54Z) - Adaptive Prototype Model for Attribute-based Multi-label Few-shot Action Recognition [11.316708754749103]
現実世界の行動認識システムでは、より多くの属性を組み込むことで、人間の行動をより包括的に理解できるようになる。
本稿では,人間行動認識のためのアダプティブ属性プロトタイプモデル(AAPM)を提案する。
AAPMは属性に基づく複数ラベルの複数ショットのアクション認識と単一ラベルの少数ショットのアクション認識の両方において、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-18T06:39:28Z) - TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - 3d human motion generation from the text via gesture action
classification and the autoregressive model [28.76063248241159]
このモデルは、手を振ってうなずくといった人間の思考を表現する特別なジェスチャーを生成することに焦点を当てている。
いくつかの実験により,本手法はテキストから知覚的に自然でリアルな3次元動作を生成することに成功した。
論文 参考訳(メタデータ) (2022-11-18T03:05:49Z) - Attribute Alignment: Controlling Text Generation from Pre-trained
Language Models [46.19190007510232]
本論文では, テキスト生成を簡便かつ柔軟に制御する手法を提案する。
属性のトークンレベル分布を乱すように識別器を訓練する最近の取り組みとは対照的に、同じデータを用いてアライメント関数を学習し、トレーニング済みの非制御言語モデルを誘導し、元の言語モデルパラメータを変更することなく、ターゲット属性を持つテキストを生成する。
論文 参考訳(メタデータ) (2021-03-20T01:51:32Z) - Procedural Reading Comprehension with Attribute-Aware Context Flow [85.34405161075276]
手続き的なテキストは、しばしばエンティティの上で起こるプロセスを記述する。
本稿では,テキストを一般的な形式に翻訳することで,手続き的読解のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-31T00:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。