Fugu-MT 論文翻訳(概要): TextIM: Part-aware Interactive Motion Synthesis from Text

論文の概要: TextIM: Part-aware Interactive Motion Synthesis from Text

arxiv url: http://arxiv.org/abs/2408.03302v1
Date: Tue, 6 Aug 2024 17:08:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 13:28:25.018692
Title: TextIM: Part-aware Interactive Motion Synthesis from Text
Title（参考訳）: TextIM: テキストからの対話型モーション合成
Authors: Siyuan Fan, Bo Du, Xiantao Cai, Bo Peng, Longling Sun,
Abstract要約: TextIMは、TEXT駆動のヒューマンインタラクティブモーションを合成するための新しいフレームワークである。我々のアプローチは、人間の脳として機能する大きな言語モデルを利用して、相互作用する人間の身体部分を特定する。トレーニングと評価のために,HUMANML3Dからインタラクティブな動きを慎重に選択し,再ラベルし,特殊なデータセットを開発した。
参考スコア（独自算出の注目度）: 25.91739105467082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose TextIM, a novel framework for synthesizing TEXT-driven human Interactive Motions, with a focus on the precise alignment of part-level semantics. Existing methods often overlook the critical roles of interactive body parts and fail to adequately capture and align part-level semantics, resulting in inaccuracies and even erroneous movement outcomes. To address these issues, TextIM utilizes a decoupled conditional diffusion framework to enhance the detailed alignment between interactive movements and corresponding semantic intents from textual descriptions. Our approach leverages large language models, functioning as a human brain, to identify interacting human body parts and to comprehend interaction semantics to generate complicated and subtle interactive motion. Guided by the refined movements of the interacting parts, TextIM further extends these movements into a coherent whole-body motion. We design a spatial coherence module to complement the entire body movements while maintaining consistency and harmony across body parts using a part graph convolutional network. For training and evaluation, we carefully selected and re-labeled interactive motions from HUMANML3D to develop a specialized dataset. Experimental results demonstrate that TextIM produces semantically accurate human interactive motions, significantly enhancing the realism and applicability of synthesized interactive motions in diverse scenarios, even including interactions with deformable and dynamically changing objects.
Abstract（参考訳）: 本研究では,TEXTを駆動するヒューマン・インタラクティブ・モーションを合成する新しいフレームワークであるTextIMを提案し,パートレベルのセマンティクスの正確なアライメントに着目した。既存の手法は、しばしば対話的な身体部分の重要な役割を見落とし、部分レベルの意味論を適切に捉えて整合させることに失敗し、不正確な結果や誤動作の結果に至る。これらの問題に対処するために、TextIMは分離された条件拡散フレームワークを使用して、テキスト記述から対話的な動きとそれに対応する意味的意図の詳細なアライメントを強化する。我々のアプローチは、人間の脳として機能する大きな言語モデルを活用し、相互作用する人間の身体の部分を特定し、相互作用のセマンティクスを理解することによって、複雑で微妙な対話動作を生成する。相互作用する部分の洗練された動きに導かれ、TextIMはさらにこれらの動きをコヒーレントな全身運動へと拡張する。本研究では,空間コヒーレンスモジュールを設計し,部分グラフ畳み込みネットワークを用いて身体部分間の一貫性と調和を維持しながら全身の動きを補完する。トレーニングと評価のために,HUMANML3Dからインタラクティブな動きを慎重に選択し,再ラベルし,特殊なデータセットを開発した。実験により,TextIMは意味論的に正確な人間の対話動作を生成できることを示すとともに,変形性や動的に変化する物体との相互作用を含む様々なシナリオにおいて,合成された対話動作の現実性と適用性を大幅に向上させることができた。

関連論文リスト

UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。 UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文参考訳（メタデータ） (2025-05-19T07:02:12Z)
EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning [66.68366281305977]
本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。既存のテキスト対HOI合成法は主に、テキストからオブジェクト固有の3D体の動きへの直接マッピングをデプロイする。本稿では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
論文参考訳（メタデータ） (2025-03-01T07:15:10Z)
Jointly Understand Your Command and Intention:Reciprocal Co-Evolution between Scene-Aware 3D Human Motion Synthesis and Analysis [80.50342609047091]
シーン認識型テキスト対人間合成は、同じテキスト記述から多様な屋内動作サンプルを生成する。そこで本研究では,テキスト駆動型シーン特異的なヒューマンモーション生成を3段階に分解するケースドジェネレーション戦略を提案する。我々は3次元シーンにおけるリアルな人間の動き合成と頑健な人間の動き解析を共同で改善する。
論文参考訳（メタデータ） (2025-03-01T06:56:58Z)
OOD-HOI: Text-Driven 3D Whole-Body Human-Object Interactions Generation Beyond Training Domains [66.62502882481373]
現在の方法では、身体と手の両方に焦点を合わせ、結束的で現実的な相互作用を生み出す能力を制限する傾向にある。我々は,OOD-HOIというテキスト駆動型フレームワークを提案する。提案手法は,初期相互作用ポーズを合成するための二重分岐相互拡散モデルと,予測された接触領域に基づく物理的精度向上のための接触誘導相互作用精製器と,ロバスト性向上のための意味的調整と変形を含む動的適応機構を統合した。
論文参考訳（メタデータ） (2024-11-27T10:13:35Z)
KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。動作を別個の体節群運動に分解する動き表現を提案する。
論文参考訳（メタデータ） (2024-11-23T06:50:11Z)
Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文参考訳（メタデータ） (2024-10-08T02:23:53Z)
InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction [27.10256777126629]
本稿では,テキスト・インタラクション・ペア・データを直接学習することなく,人間と物体の相互作用を生成できる可能性を示す。人間の行動が物体の動きにどのように影響するかをモデル化し、単純な物理を理解するために設計された世界モデルを導入する。これらのコンポーネントを統合することで、新しいフレームワークであるInterDreamerは、ゼロショット方式でテキスト整列した3D HOIシーケンスを生成することができる。
論文参考訳（メタデータ） (2024-03-28T17:59:30Z)
THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文参考訳（メタデータ） (2024-03-17T13:17:25Z)
Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文参考訳（メタデータ） (2023-12-06T21:14:20Z)
ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文参考訳（メタデータ） (2023-11-28T18:59:52Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文参考訳（メタデータ） (2023-08-22T17:59:51Z)
IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object Interactions [69.95820880360345]
そこで本研究では,仮想人物の全身動作を3Dオブジェクトで合成する最初のフレームワークを提案する。本システムでは,オブジェクトと仮想文字の関連意図を入力テキストとして記述する。その結果, 80%以上のシナリオにおいて, 合成された全身運動は参加者よりリアルに見えることがわかった。
論文参考訳（メタデータ） (2022-12-14T23:59:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。