論文の概要: Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
- arxiv url: http://arxiv.org/abs/2603.09930v1
- Date: Tue, 10 Mar 2026 17:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.49862
- Title: Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction
- Title(参考訳): 関節角度運動画像とトークン・パッチ遅延相互作用による微粒な動きの検索
- Authors: Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao,
- Abstract要約: テキストモーション検索は、自然言語記述と3次元人間の骨格配列の間の意味的に整合した潜在空間を学習することを目的としている。
既存のほとんどのメソッドは、モーションとテキストをグローバルな埋め込みに圧縮するデュアルエンコーダフレームワークを使用している。
本稿では,関節の局所的な特徴を擬似画像にマッピングする,解釈可能な,関節角度に基づく動作表現を提案する。
- 参考スコア(独自算出の注目度): 8.282478908772534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-motion retrieval aims to learn a semantically aligned latent space between natural language descriptions and 3D human motion skeleton sequences, enabling bidirectional search across the two modalities. Most existing methods use a dual-encoder framework that compresses motion and text into global embeddings, discarding fine-grained local correspondences, and thus reducing accuracy. Additionally, these global-embedding methods offer limited interpretability of the retrieval results. To overcome these limitations, we propose an interpretable, joint-angle-based motion representation that maps joint-level local features into a structured pseudo-image, compatible with pre-trained Vision Transformers. For text-to-motion retrieval, we employ MaxSim, a token-wise late interaction mechanism, and enhance it with Masked Language Modeling regularization to foster robust, interpretable text-motion alignment. Extensive experiments on HumanML3D and KIT-ML show that our method outperforms state-of-the-art text-motion retrieval approaches while offering interpretable fine-grained correspondences between text and motion. The code is available in the supplementary material.
- Abstract(参考訳): テキストモーション検索は、自然言語記述と3次元人間の骨格配列の間の意味的に整合した潜伏空間を学習することを目的としており、この2つのモードを双方向に探索することを可能にする。
既存のほとんどの手法では、モーションとテキストをグローバルな埋め込みに圧縮し、きめ細かいローカル通信を破棄し、精度を低下させるデュアルエンコーダフレームワークを使用している。
さらに、これらのグローバル埋め込み手法は、検索結果の限定的な解釈可能性を提供する。
これらの制限を克服するため、我々は、関節レベルの局所特徴を事前訓練された視覚変換器と互換性のある構造化された擬似画像にマッピングする、解釈可能な関節角度に基づく動き表現を提案する。
テキスト・トゥ・モーション検索にはトークン・ワイド・レイト・インタラクション・メカニズムであるMaxSimを使用し,Masked Language Modeling regularization を併用して頑健で解釈可能なテキスト・モーション・アライメントを向上する。
HumanML3D と KIT-ML の大規模な実験により,本手法はテキストと動きの微妙な対応性を提供しながら,最先端のテキストモーション検索手法より優れていることが示された。
コードは補足資料で入手できる。
関連論文リスト
- Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - ReAlign: Bilingual Text-to-Motion Generation via Step-Aware Reward-Guided Alignment [48.894439350114396]
本稿では,バイリンガル・テキスト・トゥ・モーション生成モデルにおいて重要なベンチマークとなるバイリンガル・ヒューマン・モーション・データセットであるBiHumanML3Dを提案する。
また,バイリンガル・モーション・ディフュージョン・モデル (BiMD) を提案する。
提案手法は,既存の最先端手法と比較して,テキスト・モーションアライメントと動作品質を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-05-08T06:19:18Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - AttT2M: Text-Driven Human Motion Generation with Multi-Perspective
Attention Mechanism [24.049207982022214]
マルチパースペクティブアテンション機構を持つ2段階手法である textbftT2M を提案する。
本手法は, 定性的, 定量的評価の観点から, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-09-02T02:18:17Z) - Text-to-Motion Retrieval: Towards Joint Understanding of Human Motion
Data and Natural Language [4.86658723641864]
本研究では,特定の自然記述に基づいて関連動作を検索することを目的とした,新たなテキスト・ツー・モーション検索タスクを提案する。
テキスト対画像/ビデオマッチングの最近の進歩に触発されて、広く採用されている2つのメトリック学習損失関数を実験した。
論文 参考訳(メタデータ) (2023-05-25T08:32:41Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。