論文の概要: Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning
- arxiv url: http://arxiv.org/abs/2601.21904v3
- Date: Wed, 04 Feb 2026 13:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.603876
- Title: Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning
- Title(参考訳): 大域的アライメントを超えて:ピラミッド・シャプリー・テイラー学習による微粒運動言語検索
- Authors: Hanmo Chen, Guangtao Lyu, Chenghao Xu, Jiexi Yan, Xu Yang, Cheng Deng,
- Abstract要約: 動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 56.6025512458557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a foundational task in human-centric cross-modal intelligence, motion-language retrieval aims to bridge the semantic gap between natural language and human motion, enabling intuitive motion analysis, yet existing approaches predominantly focus on aligning entire motion sequences with global textual representations. This global-centric paradigm overlooks fine-grained interactions between local motion segments and individual body joints and text tokens, inevitably leading to suboptimal retrieval performance. To address this limitation, we draw inspiration from the pyramidal process of human motion perception (from joint dynamics to segment coherence, and finally to holistic comprehension) and propose a novel Pyramidal Shapley-Taylor (PST) learning framework for fine-grained motion-language retrieval. Specifically, the framework decomposes human motion into temporal segments and spatial body joints, and learns cross-modal correspondences through progressive joint-wise and segment-wise alignment in a pyramidal fashion, effectively capturing both local semantic details and hierarchical structural relationships. Extensive experiments on multiple public benchmark datasets demonstrate that our approach significantly outperforms state-of-the-art methods, achieving precise alignment between motion segments and body joints and their corresponding text tokens. The code of this work will be released upon acceptance.
- Abstract(参考訳): 人間中心のクロスモーダルインテリジェンスの基本課題として、動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としており、直感的な動き解析を可能にしている。
このグローバル中心のパラダイムは、局所的な動きセグメントと個々のボディジョイントとテキストトークンとのきめ細かい相互作用を見落とし、必然的に、最適以下の検索性能をもたらす。
この制限に対処するため、人間の運動知覚のピラミッド的過程(関節力学からセグメントコヒーレンス、そして最後に全体論的理解)からインスピレーションを得て、より詳細な運動言語検索のための新しいピラミッドシャプリー・テイラー(PST)学習フレームワークを提案する。
具体的には、人間の動きを時間的セグメントと空間的体節に分解し、ピラミッド的な方法で進行的な関節・セグメント的アライメントを通して相互対応を学習し、局所的な意味的詳細と階層的構造的関係の両方を効果的に捉える。
複数の公開ベンチマークデータセットに対する大規模な実験により、我々のアプローチは最先端の手法を著しく上回り、モーションセグメントとボディジョイントと対応するテキストトークンの正確なアライメントを実現していることが示された。
この作業のコードは受理後に公開される。
関連論文リスト
- 3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control [3.606473077857744]
3DGesPolicyは、連続的な軌跡制御問題として総合的なジェスチャー生成を再構成するアクションベースのフレームワークである。
フレーム・ツー・フレームの変動を統一的全体的動作としてモデル化することにより,フレーム間の動作パターンを効果的に学習する。
表現的アライメントにおけるギャップをさらに埋めるため,Gesture-Audio-Phoneme (GAP) 融合モジュールを提案する。
論文 参考訳(メタデータ) (2026-01-26T12:57:36Z) - PALUM: Part-based Attention Learning for Unified Motion Retargeting [53.17113525688095]
異なる骨格構造を持つキャラクター間の反発は、コンピュータアニメーションの基本的な課題である。
多様な骨格トポロジーにまたがる共通の動き表現を学習する新しいアプローチを提案する。
実験は、運動リアリズムと意味的忠実性を維持しながら、多様な骨格構造を扱う上で優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-12T07:29:44Z) - EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning [66.68366281305977]
本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。
既存のテキスト対HOI合成法は主に、テキストからオブジェクト固有の3D体の動きへの直接マッピングをデプロイする。
本稿では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:10Z) - SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis [19.764460501254607]
一般的なリズム運動と稀だが本質的なセマンティックモーションを慎重に統合しなければ、良好な音声合成が達成できない。
本稿では,フレームレベルのセマンティクスを重視した音声合成のためのSemTalkを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:16:07Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。