論文の概要: Tri-Modal Motion Retrieval by Learning a Joint Embedding Space
- arxiv url: http://arxiv.org/abs/2403.00691v1
- Date: Fri, 1 Mar 2024 17:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-05 16:46:43.234826
- Title: Tri-Modal Motion Retrieval by Learning a Joint Embedding Space
- Title(参考訳): 共同埋め込み空間の学習による3モード運動検索
- Authors: Kangning Yin, Shihao Zou, Yuxuan Ge, Zheng Tian
- Abstract要約: LAVIMOは、人間中心の動画を付加的なモダリティとして統合した3つのモダリティ学習のためのフレームワークである。
我々は,HumanML3DとKIT-MLのデータセットを用いて,LAVIMOが動作関連クロスモーダル検索タスクにおいて最先端の性能を達成することを示す。
- 参考スコア(独自算出の注目度): 4.550873593248722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information retrieval is an ever-evolving and crucial research domain. The
substantial demand for high-quality human motion data especially in online
acquirement has led to a surge in human motion research works. Prior works have
mainly concentrated on dual-modality learning, such as text and motion tasks,
but three-modality learning has been rarely explored. Intuitively, an extra
introduced modality can enrich a model's application scenario, and more
importantly, an adequate choice of the extra modality can also act as an
intermediary and enhance the alignment between the other two disparate
modalities. In this work, we introduce LAVIMO (LAnguage-VIdeo-MOtion
alignment), a novel framework for three-modality learning integrating
human-centric videos as an additional modality, thereby effectively bridging
the gap between text and motion. Moreover, our approach leverages a specially
designed attention mechanism to foster enhanced alignment and synergistic
effects among text, video, and motion modalities. Empirically, our results on
the HumanML3D and KIT-ML datasets show that LAVIMO achieves state-of-the-art
performance in various motion-related cross-modal retrieval tasks, including
text-to-motion, motion-to-text, video-to-motion and motion-to-video.
- Abstract(参考訳): 情報検索は進化途上かつ重要な研究領域である。
オンライン取得における高品質な人体運動データに対する需要は、人体運動研究の急増につながっている。
先行研究は主にテキストや運動タスクなどの二モーダリティ学習に集中しているが、3モーダリティ学習はめったに研究されていない。
直感的には、追加導入されたモダリティはモデルのアプリケーションシナリオを豊かにすることができ、さらに重要なことに、追加モダリティの適切な選択が仲介役となり、他の2つの異なるモダリティ間のアライメントを強化することができる。
本研究では,人間中心の動画を付加的なモダリティとして統合した3つのモダリティ学習のための新しいフレームワークであるLAVIMO(LAnguage-VIdeo-Motion alignment)を紹介する。
さらに,本手法では,テキスト・ビデオ・モーション・モダリティ間のアライメントと相乗効果を高めるために,特別に設計された注意機構を活用する。
humanml3dとkit-mlデータセットを用いた実験結果から,lavimoはテキスト対モーション,モーション対テキスト,ビデオ対モーション,モーション対ビデオなど,さまざまなモーション関連クロスモーダル検索タスクにおいて最先端のパフォーマンスを達成していることが示された。
関連論文リスト
- Multi-Modal Motion Retrieval by Learning a Fine-Grained Joint Embedding Space [15.146062492621265]
モーション検索は、モーション生成よりも精度、リアリズム、制御性、編集性に優れるモーション取得に不可欠である。
既存のアプローチでは、コントラスト学習を活用して、テキストや視覚的モダリティからの動きを検索するための統合的な埋め込み空間を構築する。
本研究では, テキスト, オーディオ, ビデオ, モーションの4つのモードを, きめ細かい関節埋め込み空間内に配置するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T01:59:38Z) - MotionGPT3: Human Motion as a Second Modality [20.804747077748953]
人間の動きを第2のモーダルとして扱うバイモーダルモーション言語モデルであるMotionGPT3を提案する。
言語知性を維持するために、テキストブランチは、事前訓練された言語モデルの本来の構造とパラメータを保持する。
本手法は,動作理解タスクと生成タスクの両方において,競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-30T17:42:22Z) - UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Versatile Motion Language Models for Multi-Turn Interactive Agents [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion言語モデルを提案する。
動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。