論文の概要: Multi-Modal Motion Retrieval by Learning a Fine-Grained Joint Embedding Space
- arxiv url: http://arxiv.org/abs/2507.23188v1
- Date: Thu, 31 Jul 2025 01:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.926641
- Title: Multi-Modal Motion Retrieval by Learning a Fine-Grained Joint Embedding Space
- Title(参考訳): 微細な関節埋め込み空間の学習によるマルチモーダル運動検索
- Authors: Shiyao Yu, Zi-An Wang, Kangning Yin, Zheng Tian, Mingyuan Zhang, Weixin Si, Shihao Zou,
- Abstract要約: モーション検索は、モーション生成よりも精度、リアリズム、制御性、編集性に優れるモーション取得に不可欠である。
既存のアプローチでは、コントラスト学習を活用して、テキストや視覚的モダリティからの動きを検索するための統合的な埋め込み空間を構築する。
本研究では, テキスト, オーディオ, ビデオ, モーションの4つのモードを, きめ細かい関節埋め込み空間内に配置するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.146062492621265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion retrieval is crucial for motion acquisition, offering superior precision, realism, controllability, and editability compared to motion generation. Existing approaches leverage contrastive learning to construct a unified embedding space for motion retrieval from text or visual modality. However, these methods lack a more intuitive and user-friendly interaction mode and often overlook the sequential representation of most modalities for improved retrieval performance. To address these limitations, we propose a framework that aligns four modalities -- text, audio, video, and motion -- within a fine-grained joint embedding space, incorporating audio for the first time in motion retrieval to enhance user immersion and convenience. This fine-grained space is achieved through a sequence-level contrastive learning approach, which captures critical details across modalities for better alignment. To evaluate our framework, we augment existing text-motion datasets with synthetic but diverse audio recordings, creating two multi-modal motion retrieval datasets. Experimental results demonstrate superior performance over state-of-the-art methods across multiple sub-tasks, including an 10.16% improvement in R@10 for text-to-motion retrieval and a 25.43% improvement in R@1 for video-to-motion retrieval on the HumanML3D dataset. Furthermore, our results show that our 4-modal framework significantly outperforms its 3-modal counterpart, underscoring the potential of multi-modal motion retrieval for advancing motion acquisition.
- Abstract(参考訳): モーション検索は、モーション生成よりも精度、リアリズム、制御性、編集性に優れるモーション取得に不可欠である。
既存のアプローチでは、コントラスト学習を活用して、テキストや視覚的モダリティからの動きを検索するための統合的な埋め込み空間を構築する。
しかし、これらの手法はより直感的でユーザフレンドリなインタラクションモードを欠き、多くの場合、検索性能を改善するためのほとんどのモダリティのシーケンシャルな表現を見落としている。
これらの制約に対処するため, テキスト, 音声, ビデオ, モーションの4つのモードを, きめ細かい関節埋め込み空間内に配置し, ユーザの没入感と利便性を高めるために, 音声を初めて組み込んだフレームワークを提案する。
このきめ細かい空間は、シーケンスレベルのコントラスト学習アプローチによって達成される。
本フレームワークを評価するために,既存のテキストモーションデータセットを合成音声記録により拡張し,2つのマルチモーダルモーション検索データセットを作成する。
実験の結果,テキスト・トゥ・モーション検索におけるR@10の10.16%の改善,HumanML3Dデータセットにおけるビデオ・トゥ・モーション検索におけるR@1の25.43%の改善など,複数のサブタスクにおける最先端手法よりも優れた性能を示した。
さらに,我々の4モーダル・フレームワークは3モーダル・フレームワークを著しく上回り,運動獲得に向けた多モーダル・モーション・検索の可能性を強調した。
関連論文リスト
- M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis [20.38933807616264]
ExGesはジェスチャ合成のための新しい検索強化拡散フレームワークである。
ExGesはFr'teche Distanceを6.2%減らし、EMAGEよりも5.3%減らした。
また、ユーザスタディでは、自然性および意味的関連性に対して71.3%の好意を示す。
論文 参考訳(メタデータ) (2025-03-09T07:59:39Z) - MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion [8.94802080815133]
MoRAGは、テキストベースの人間動作生成のための、新しい多部融合に基づく検索強化生成戦略である。
得られた動きの空間的組成から多様なサンプルを作成する。
我々のフレームワークはプラグイン・アンド・プレイモジュールとして機能し、モーション拡散モデルの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-18T17:03:30Z) - Tri-Modal Motion Retrieval by Learning a Joint Embedding Space [4.550873593248722]
LAVIMOは、人間中心の動画を付加的なモダリティとして統合した3つのモダリティ学習のためのフレームワークである。
我々は,HumanML3DとKIT-MLのデータセットを用いて,LAVIMOが動作関連クロスモーダル検索タスクにおいて最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-03-01T17:23:30Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model [33.64263969970544]
3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
論文 参考訳(メタデータ) (2023-04-03T16:29:00Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。