論文の概要: BiPO: Bidirectional Partial Occlusion Network for Text-to-Motion Synthesis
- arxiv url: http://arxiv.org/abs/2412.00112v2
- Date: Sun, 23 Feb 2025 11:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:46:45.198334
- Title: BiPO: Bidirectional Partial Occlusion Network for Text-to-Motion Synthesis
- Title(参考訳): BiPO:テキスト間合成のための双方向部分閉塞ネットワーク
- Authors: Seong-Eun Hong, Soobin Lim, Juyeong Hwang, Minwook Chang, Hyeongyeop Kang,
- Abstract要約: BiPOは、テキスト間合成を強化する新しいモデルである。
パートベースの生成と双方向の自己回帰アーキテクチャを統合する。
BiPOはHumanML3Dデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.4893345190925178
- License:
- Abstract: Generating natural and expressive human motions from textual descriptions is challenging due to the complexity of coordinating full-body dynamics and capturing nuanced motion patterns over extended sequences that accurately reflect the given text. To address this, we introduce BiPO, Bidirectional Partial Occlusion Network for Text-to-Motion Synthesis, a novel model that enhances text-to-motion synthesis by integrating part-based generation with a bidirectional autoregressive architecture. This integration allows BiPO to consider both past and future contexts during generation while enhancing detailed control over individual body parts without requiring ground-truth motion length. To relax the interdependency among body parts caused by the integration, we devise the Partial Occlusion technique, which probabilistically occludes the certain motion part information during training. In our comprehensive experiments, BiPO achieves state-of-the-art performance on the HumanML3D dataset, outperforming recent methods such as ParCo, MoMask, and BAMM in terms of FID scores and overall motion quality. Notably, BiPO excels not only in the text-to-motion generation task but also in motion editing tasks that synthesize motion based on partially generated motion sequences and textual descriptions. These results reveal the BiPO's effectiveness in advancing text-to-motion synthesis and its potential for practical applications.
- Abstract(参考訳): テキスト記述から自然な、表現力のある人間の動きを生成することは、フルボディのダイナミクスをコーディネートし、与えられたテキストを正確に反映する拡張シーケンス上でニュアンスされた動きパターンをキャプチャする複雑さのために困難である。
そこで本稿では, 双方向自己回帰型アーキテクチャとパートベース生成を統合し, テキスト・ツー・モーション合成を向上する新モデルであるBiPOを導入する。
この統合により、BiPOは、過去の状況と将来の状況の両方を世代中に考慮でき、また、接地構造運動長を必要とせず、個々の身体部分の詳細な制御を強化することができる。
統合によって生じる身体部位間の相互依存を緩和するため,訓練中に特定の動作部位情報を確率的に阻害する部分閉塞法を考案した。
総合的な実験において、BiPOはHumanML3Dデータセット上での最先端のパフォーマンスを達成し、FIDスコアと全体的な動き品質の点でParCo、MoMask、BAMMといった最近の手法よりも優れています。
特に、BiPOは、テキスト・ツー・モーション生成タスクだけでなく、部分的に生成された動きシーケンスとテキスト記述に基づいて動きを合成する動き編集タスクにも優れている。
これらの結果から, テキスト間合成におけるBiPOの有効性と実用化の可能性を明らかにした。
関連論文リスト
- Fg-T2M++: LLMs-Augmented Fine-Grained Text Driven Human Motion Generation [19.094098673523263]
テキスト駆動型人体動作生成のための新しいフレームワークを提案する。
Fg-T2M++ は,(1) 身体部分の記述と意味をテキストから抽出する LLM 意味解析モジュール,(2) テキスト単位間の関係情報をエンコードする双曲的テキスト表現モジュール,(3) テキストと運動の特徴を階層的に融合するマルチモーダル融合モジュールからなる。
論文 参考訳(メタデータ) (2025-02-08T11:38:12Z) - CASIM: Composite Aware Semantic Injection for Text to Motion Generation [15.53049009014166]
テキストとモーショントークンの動的対応を学習する複合認識型セマンティックインジェクション機構を提案する。
HumanML3DとKITベンチマークの実験では、CASIMは動きの質、テキスト・モーションアライメント、検索スコアを一貫して改善している。
論文 参考訳(メタデータ) (2025-02-04T07:22:07Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - ParCo: Part-Coordinating Text-to-Motion Synthesis [48.67225204910634]
我々はParCo(Part-Coordinating Text-to-Motion Synthesis)を提案する。
ParCoには、異なる部分モーションジェネレータ間の部分モーションと通信を理解する能力が強化されている。
提案手法は, 経済計算を用いた一般的なベンチマークにおいて, 優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-03-27T12:41:30Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation [23.435588151215594]
そこで本研究では,テキスト駆動型人体動作合成のためのケースケード拡散に基づく新しい生成フレームワークを提案する。
このフレームワークはGradUally Enriching SyntheSis(GUESS)という戦略を略語として利用している。
GUESSは、精度、現実性、多様性において、既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-01-04T08:48:21Z) - AMD:Anatomical Motion Diffusion with Interpretable Motion Decomposition
and Fusion [11.689663297469945]
適応運動拡散モデルを提案する。
入力テキストを簡潔で解釈可能な解剖学的スクリプトのシーケンスにパースするために、LLM(Large Language Model)を利用する。
次に、逆拡散過程における入力テキストと解剖学的スクリプトの影響を均衡させる2分岐融合方式を考案する。
論文 参考訳(メタデータ) (2023-12-20T04:49:45Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation [58.25766404147109]
我々のゴールは、同時動作を記述するテキスト入力を与えられた3次元人間の動作を合成することである。
我々は「空間構成」というような同時的な動きを生み出すことを指す。
論文 参考訳(メタデータ) (2023-04-20T16:01:55Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。