論文の概要: InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing
- arxiv url: http://arxiv.org/abs/2603.13082v1
- Date: Fri, 13 Mar 2026 15:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.157769
- Title: InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing
- Title(参考訳): InterEdit: テキストガイドによるマルチHuman 3Dモーション編集
- Authors: Yebin Yang, Di Wen, Lei Qi, Weitong Kong, Junwei Zheng, Ruiping Liu, Yufan Chen, Chengzhi Wu, Kailun Yang, Yuqian Fu, Danda Pani Paudel, Luc Van Gool, Kunyu Peng,
- Abstract要約: 本稿では,複数の人物による3Dモーション編集のタスクについて紹介する。
これをサポートするために、InterEdit3D、手動2人動作変更アノテーションを備えた新しいデータセット、およびテキスト誘導多人動作編集(TMME)ベンチマークを提案する。
InterEditはテキスト間の一貫性を改善し、忠実さを編集し、最先端のTMMEパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 73.51964472028392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided 3D motion editing has seen success in single-person scenarios, but its extension to multi-person settings is less explored due to limited paired data and the complexity of inter-person interactions. We introduce the task of multi-person 3D motion editing, where a target motion is generated from a source and a text instruction. To support this, we propose InterEdit3D, a new dataset with manual two-person motion change annotations, and a Text-guided Multi-human Motion Editing (TMME) benchmark. We present InterEdit, a synchronized classifier-free conditional diffusion model for TMME. It introduces Semantic-Aware Plan Token Alignment with learnable tokens to capture high-level interaction cues and an Interaction-Aware Frequency Token Alignment strategy using DCT and energy pooling to model periodic motion dynamics. Experiments show that InterEdit improves text-to-motion consistency and edit fidelity, achieving state-of-the-art TMME performance. The dataset and code will be released at https://github.com/YNG916/InterEdit.
- Abstract(参考訳): テキスト誘導型3Dモーション編集は、シングルパーソンシナリオで成功したが、ペアデータに制限があることと、対人インタラクションの複雑さにより、マルチパーソン設定への拡張は検討されていない。
本稿では,複数の人物による3Dモーション編集のタスクについて紹介する。
これをサポートするために、InterEdit3D、手動2人動作変更アノテーションを備えた新しいデータセット、およびテキスト誘導多人動作編集(TMME)ベンチマークを提案する。
TMMEのための同期型分類器自由条件拡散モデルであるInterEditを提案する。
セマンティック・アウェア・プラン・トークンアライメント(Semantic-Aware Plan Token Alignment)を導入し、高レベルなインタラクションキューをキャプチャするためのトークンと、DCTとエネルギプールを用いたインタラクション・アウェア・周波数・トークンアライメント戦略を導入し、周期的な動きのダイナミクスをモデル化する。
実験により、InterEditはテキスト間の一貫性を改善し、忠実さを編集し、最先端のTMMEパフォーマンスを実現する。
データセットとコードはhttps://github.com/YNG916/InterEditで公開される。
関連論文リスト
- CoreEditor: Consistent 3D Editing via Correspondence-constrained Diffusion [24.144486805878596]
CoreEditorは、一貫したテキストから3D編集のための新しいフレームワークである。
本稿では,画素間の正確な相互作用を強制するアテンション制約付アテンション機構を提案する。
実験では、CoreEditorはよりシャープなディテールで高品質な3D一貫性のある編集を生成する。
論文 参考訳(メタデータ) (2025-08-15T17:13:11Z) - SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction [20.89960239295474]
本稿では,関連するタスク,動作類似度予測を導入し,マルチタスク学習パラダイムを提案する。
我々は、意味論的意味のある表現の学習を促進するために、動きの編集と動きの類似性予測を共同で訓練する。
実験は、アライメントと忠実さの両面において、我々のアプローチの最先端性能を実証した。
論文 参考訳(メタデータ) (2025-03-23T21:29:37Z) - MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。
本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。
このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文 参考訳(メタデータ) (2024-08-01T16:58:50Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting [86.50200613220674]
3Dベースのインタラクティブ編集における重要な課題は、与えられたメモリ制約の下で様々な修正と高品質なビュー合成のバランスをとる効率的な表現がないことである。
SplatMeshは,3次元ガウススプラッティングと事前計算メッシュを統合した,対話型3Dセグメンテーション・編集アルゴリズムである。
単純化されたメッシュのセグメンテーションと編集により、ガウススプレートの編集も効果的に行えます。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。