論文の概要: WaMo: Wavelet-Enhanced Multi-Frequency Trajectory Analysis for Fine-Grained Text-Motion Retrieval
- arxiv url: http://arxiv.org/abs/2508.03343v1
- Date: Tue, 05 Aug 2025 11:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.939439
- Title: WaMo: Wavelet-Enhanced Multi-Frequency Trajectory Analysis for Fine-Grained Text-Motion Retrieval
- Title(参考訳): WaMo:微細テキスト移動検索のためのウェーブレット強化多周波数軌道解析
- Authors: Junlong Ren, Gangjian Zhang, Honghao Fu, Pengcheng Wu, Hao Wang,
- Abstract要約: Text-Motion Retrievalは、テキスト記述に意味のある3Dモーションシーケンスを検索することを目的としている。
ウェーブレットに基づく新しい多周波特徴抽出フレームワークWaMoを提案する。
WaMoは、身体関節の複数の解像度にまたがる、部分特異的かつ時間的に変化する運動の詳細をキャプチャする。
- 参考スコア(独自算出の注目度): 7.349030413222046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-Motion Retrieval (TMR) aims to retrieve 3D motion sequences semantically relevant to text descriptions. However, matching 3D motions with text remains highly challenging, primarily due to the intricate structure of human body and its spatial-temporal dynamics. Existing approaches often overlook these complexities, relying on general encoding methods that fail to distinguish different body parts and their dynamics, limiting precise semantic alignment. To address this, we propose WaMo, a novel wavelet-based multi-frequency feature extraction framework. It fully captures part-specific and time-varying motion details across multiple resolutions on body joints, extracting discriminative motion features to achieve fine-grained alignment with texts. WaMo has three key components: (1) Trajectory Wavelet Decomposition decomposes motion signals into frequency components that preserve both local kinematic details and global motion semantics. (2) Trajectory Wavelet Reconstruction uses learnable inverse wavelet transforms to reconstruct original joint trajectories from extracted features, ensuring the preservation of essential spatial-temporal information. (3) Disordered Motion Sequence Prediction reorders shuffled motion sequences to improve the learning of inherent temporal coherence, enhancing motion-text alignment. Extensive experiments demonstrate WaMo's superiority, achieving 17.0\% and 18.2\% improvements in $Rsum$ on HumanML3D and KIT-ML datasets, respectively, outperforming existing state-of-the-art (SOTA) methods.
- Abstract(参考訳): Text-Motion Retrieval (TMR)は、テキスト記述に意味のある3Dモーションシーケンスを検索することを目的としている。
しかし、人体の複雑な構造と時空間のダイナミクスが主な原因で、テキストと3D動作のマッチングは非常に困難である。
既存のアプローチは、しばしばこれらの複雑さを見落とし、異なる身体の部分とそれらのダイナミクスを区別できない一般的な符号化法に依存し、正確な意味的アライメントを制限する。
そこで我々は,ウェーブレットに基づく新しい多周波数特徴抽出フレームワークWaMoを提案する。
身体関節の複数の解像度にまたがる部分特異的および時間変化の運動の詳細をフルにキャプチャし、テキストとの微妙なアライメントを達成するために識別的な運動特徴を抽出する。
軌道ウェーブレット分解(Trajectory Wavelet Decomposition)は、動き信号を周波数成分に分解し、局所的な運動の詳細とグローバルな動きのセマンティクスの両方を保存する。
2) トラジェクトリーウェーブレット再構成では, 学習可能な逆ウェーブレット変換を用いて, 抽出した特徴から元の関節軌跡を再構築し, 重要な時空間情報の保存を確保する。
3)不規則な動き系列予測は、シャッフルされた動き列を並べ替えて、固有の時間的コヒーレンスを学習し、動きテキストのアライメントを高める。
大規模な実験では、WaMoの優位性を示し、HumanML3DとKIT-MLデータセットの$Rsum$で17.0\%と18.2\%の改善が達成され、既存のSOTA(State-of-the-art)メソッドよりも優れていた。
関連論文リスト
- M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - Multi-Modal Graph Convolutional Network with Sinusoidal Encoding for Robust Human Action Segmentation [10.122882293302787]
人間の行動の時間的セグメンテーションは 知的ロボットにとって 協調的な環境において 不可欠です
本稿では,低フレームレート(例えば1fps)の視覚データと高フレームレート(例えば30fps)のモーションデータを統合するマルチモーダルグラフ畳み込みネットワーク(MMGCN)を提案する。
我々の手法は、特にアクションセグメンテーションの精度において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-07-01T13:55:57Z) - Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。
RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。
本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文 参考訳(メタデータ) (2025-05-26T13:06:01Z) - UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。
UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。
提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文 参考訳(メタデータ) (2025-05-19T07:02:12Z) - ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis [20.38933807616264]
ExGesはジェスチャ合成のための新しい検索強化拡散フレームワークである。
ExGesはFr'teche Distanceを6.2%減らし、EMAGEよりも5.3%減らした。
また、ユーザスタディでは、自然性および意味的関連性に対して71.3%の好意を示す。
論文 参考訳(メタデータ) (2025-03-09T07:59:39Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model [33.64263969970544]
3Dのモーション生成はクリエイティブ産業にとって不可欠だ。
近年の進歩は、テキスト駆動モーション生成のためのドメイン知識を持つ生成モデルに依存している。
本稿では拡散モデルに基づく動き生成フレームワークReMoDiffuseを提案する。
論文 参考訳(メタデータ) (2023-04-03T16:29:00Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。