論文の概要: MOST: Motion Diffusion Model for Rare Text via Temporal Clip Banzhaf Interaction
- arxiv url: http://arxiv.org/abs/2507.06590v1
- Date: Wed, 09 Jul 2025 06:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.494522
- Title: MOST: Motion Diffusion Model for Rare Text via Temporal Clip Banzhaf Interaction
- Title(参考訳): MOST:テンポラルクリップ・バンジャフ相互作用による希少テキストの運動拡散モデル
- Authors: Yin Wang, Mu li, Zhiying Leng, Frederick W. B. Li, Xiaohui Liang,
- Abstract要約: 時間的クリップBanzhaf相互作用による新しい動き拡散モデルMOSTを導入する。
ほとんどの場合、最先端のテキスト・トゥ・モーション検索と生成性能を達成する。
- 参考スコア(独自算出の注目度): 17.056288109274327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MOST, a novel motion diffusion model via temporal clip Banzhaf interaction, aimed at addressing the persistent challenge of generating human motion from rare language prompts. While previous approaches struggle with coarse-grained matching and overlook important semantic cues due to motion redundancy, our key insight lies in leveraging fine-grained clip relationships to mitigate these issues. MOST's retrieval stage presents the first formulation of its kind - temporal clip Banzhaf interaction - which precisely quantifies textual-motion coherence at the clip level. This facilitates direct, fine-grained text-to-motion clip matching and eliminates prevalent redundancy. In the generation stage, a motion prompt module effectively utilizes retrieved motion clips to produce semantically consistent movements. Extensive evaluations confirm that MOST achieves state-of-the-art text-to-motion retrieval and generation performance by comprehensively addressing previous challenges, as demonstrated through quantitative and qualitative results highlighting its effectiveness, especially for rare prompts.
- Abstract(参考訳): 稀な言語プロンプトから人間の動きを生成するという永続的な課題に対処することを目的とした,時間的クリップBanzhaf相互作用による新しい動き拡散モデルMOSTを導入する。
従来のアプローチでは、粗粒度のマッチングに苦労し、動きの冗長性による重要な意味の手がかりを見落としていましたが、重要な洞察は、細粒度のクリップ関係を活用してこれらの問題を緩和することにあります。
MOSTの検索段階は、その種類の時間的クリップバンジャフ相互作用の最初の定式化を示し、クリップレベルでのテキスト・モーション・コヒーレンスを正確に定量化する。
これにより、直接的かつきめ細かなテキスト・ツー・モーション・クリップのマッチングが容易になり、一般的な冗長性を排除できる。
生成段階において、モーションプロンプトモジュールは、検索されたモーションクリップを効果的に利用して意味的に一貫した動作を生成する。
特に稀なプロンプトにおいて,MOSTが従来の課題を包括的に解決し,その有効性を示す定量的,定性的な結果を通じて,最先端のテキスト・トゥ・モーション検索と生成性能を実現することを確認する。
関連論文リスト
- When Less Is More: A Sparse Facial Motion Structure For Listening Motion Learning [1.2974519529978974]
本研究では,長い列をスパースなリスニングと遷移フレームに符号化することで,非言語的な顔の動きを表現・予測する新しい手法を提案する。
本手法は,重要な動作ステップを同定し,中間フレームを補間することにより,学習過程におけるインスタンスワイドの多様性を高めつつ,動作の時間的構造を保存する。
論文 参考訳(メタデータ) (2025-04-08T07:25:12Z) - Text2Story: Advancing Video Storytelling with Text Guidance [20.51001299249891]
本稿では,自然な行動遷移と構造化された物語を伴うシームレスなビデオ生成を実現するための,新しいストーリーテリング手法を提案する。
我々は,短いクリップと拡張ビデオのギャップを埋めて,テキストからGenAI駆動のビデオ合成の新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model [64.11605839142348]
textbfMotion-priors textbfConditional textbfDiffusion textbfModel(textbfMCDM)を導入する。
textbfTalkingFace-Wildデータセットもリリースしています。
論文 参考訳(メタデータ) (2025-02-13T17:50:23Z) - Chronologically Accurate Retrieval for Temporal Grounding of Motion-Language Models [12.221087476416056]
本研究では,動作言語モデルの時系列的理解を評価するために,時間的精度の高い検索手法を提案する。
テキスト記述をイベントに分解し、複合動作記述におけるイベントの順序をシャッフルすることで、負のテキストサンプルを作成する。
次に、動作言語モデルのための簡単なタスクを設計し、より可能性の高いテキストを、真実と時系列的にシャッフルされたバージョンから検索する。
論文 参考訳(メタデータ) (2024-07-22T06:25:21Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - Cross-Sentence Temporal and Semantic Relations in Video Activity
Localisation [79.50868197788773]
我々は、クロスセンスリレーショナルマイニングを導入して、より正確な教師付きソリューションを開発する。
本稿では,(1)トリミング順序付けと(2)ビデオ活動の段落記述における文間の意味的一貫性の2つの横断的関係性制約について検討する。
2つのパブリックなアクティビティローカライゼーションデータセットの実験は、最先端の弱い教師付き手法に対する我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2021-07-23T20:04:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。