論文の概要: InterMask: 3D Human Interaction Generation via Collaborative Masked Modelling
- arxiv url: http://arxiv.org/abs/2410.10010v2
- Date: Wed, 16 Oct 2024 23:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:43:37.179499
- Title: InterMask: 3D Human Interaction Generation via Collaborative Masked Modelling
- Title(参考訳): InterMask: 協調型マスクモデルによる3次元ヒューマンインタラクション生成
- Authors: Muhammad Gohar Javed, Chuan Guo, Li Cheng, Xingyu Li,
- Abstract要約: 離散空間におけるマスクモデルを用いたヒューマンインタラクション生成のための新しいフレームワークであるInterMaskを紹介する。
InterMaskは、2人の対話する個人のトークンを協調的にモデル化するために、生成的なマスク付きモデリングフレームワークを使用している。
動作表現の強化、専用のアーキテクチャ、効果的な学習戦略により、InterMaskは高忠実で多様な人間のインタラクションを実現する。
- 参考スコア(独自算出の注目度): 27.544827331337178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic 3D human-human interactions from textual descriptions remains a challenging task. Existing approaches, typically based on diffusion models, often generate unnatural and unrealistic results. In this work, we introduce InterMask, a novel framework for generating human interactions using collaborative masked modeling in discrete space. InterMask first employs a VQ-VAE to transform each motion sequence into a 2D discrete motion token map. Unlike traditional 1D VQ token maps, it better preserves fine-grained spatio-temporal details and promotes spatial awareness within each token. Building on this representation, InterMask utilizes a generative masked modeling framework to collaboratively model the tokens of two interacting individuals. This is achieved by employing a transformer architecture specifically designed to capture complex spatio-temporal interdependencies. During training, it randomly masks the motion tokens of both individuals and learns to predict them. In inference, starting from fully masked sequences, it progressively fills in the tokens for both individuals. With its enhanced motion representation, dedicated architecture, and effective learning strategy, InterMask achieves state-of-the-art results, producing high-fidelity and diverse human interactions. It outperforms previous methods, achieving an FID of $5.154$ (vs $5.535$ for in2IN) on the InterHuman dataset and $0.399$ (vs $5.207$ for InterGen) on the InterX dataset. Additionally, InterMask seamlessly supports reaction generation without the need for model redesign or fine-tuning.
- Abstract(参考訳): テキスト記述から現実的な3D人間と人間のインタラクションを生成することは、依然として困難な課題である。
拡散モデルに基づく既存のアプローチは、しばしば非自然で非現実的な結果を生み出す。
本研究では、離散空間における協調マスクモデルを用いて、人間のインタラクションを生成するための新しいフレームワークであるInterMaskを紹介する。
InterMaskはまずVQ-VAEを使用して、各モーションシーケンスを2次元の離散なモーショントークンマップに変換する。
従来の1D VQトークンマップとは異なり、細かな時空間の詳細を保存し、各トークン内の空間的認識を促進する。
この表現に基づいて、InterMaskは、2人の対話する個人のトークンを協調的にモデル化するために、生成的なマスク付きモデリングフレームワークを利用する。
これは、複雑な時空間相互依存性をキャプチャするために特別に設計されたトランスフォーマーアーキテクチャを利用することによって達成される。
トレーニング中は、両方の個人の動きトークンをランダムに隠蔽し、それらを予測することを学ぶ。
推論では、完全にマスクされたシーケンスから始めて、両方の個人のためのトークンを徐々に埋める。
運動表現の強化、専用のアーキテクチャ、効果的な学習戦略により、InterMaskは最先端の結果を達成し、高忠実で多様な人間の相互作用を生み出す。
従来の手法より優れており、InterHumanデータセットでは5.154$(5.535$ for in2IN)、InterXデータセットでは0.399$(5.207$ for InterGen)である。
さらに、InterMaskはモデルの再設計や微調整を必要とせずに、シームレスに反応生成をサポートする。
関連論文リスト
- Text-driven Human Motion Generation with Motion Masked Diffusion Model [23.637853270123045]
テキスト・ヒューマン・モーション・ジェネレーション(テキスト・ヒューマン・モーション・ジェネレーション)は、自然言語で条件付けられた人間の動作シーケンスを合成するタスクである。
現在の拡散モデルに基づくアプローチは、生成の多様性と多モード性において優れた性能を持つ。
拡散モデルのための新しい動き機構である運動マスク付き拡散モデルbftext(MMDM)を提案する。
論文 参考訳(メタデータ) (2024-09-29T12:26:24Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - InterAct: Capture and Modelling of Realistic, Expressive and Interactive Activities between Two Persons in Daily Scenarios [12.300105542672163]
我々は、2人の人物がシーケンス全体にわたって現実的なシナリオを実行する241のモーションシーケンスをキャプチャする。
両方の人の音声、身体の動き、表情はすべて、私たちのデータセットでキャプチャされます。
また,音声のみから2人の対話的動きを直接推定する拡散モデルに基づく最初のアプローチを示す。
論文 参考訳(メタデータ) (2024-05-19T22:35:02Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - MoMask: Generative Masked Modeling of 3D Human Motions [25.168781728071046]
MoMaskはテキスト駆動型3Dモーション生成のための新しいフレームワークである。
階層的な量子化スキームは、人間の動きを離散的な動きトークンとして表現するために用いられる。
MoMaskは、テキスト・ツー・モーション生成タスクにおける最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-29T19:04:10Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Interaction Replica: Tracking Human-Object Interaction and Scene Changes From Human Motion [48.982957332374866]
人間による変化をモデル化することは、デジタル双生児を作るのに不可欠である。
本手法は,シーン中の人間の視覚的位置決めとIMUデータからの人間とシーンの相互作用に関する接触に基づく推論を組み合わせたものである。
私たちのコード、データ、モデルは、プロジェクトのページ http://virtual humans.mpi-inf.mpg.de/ireplica/.comで公開されています。
論文 参考訳(メタデータ) (2022-05-05T17:58:06Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。