Fugu-MT 論文翻訳(概要): Marrying Text-to-Motion Generation with Skeleton-Based Action Recognition

論文の概要: Marrying Text-to-Motion Generation with Skeleton-Based Action Recognition

arxiv url: http://arxiv.org/abs/2604.17090v1
Date: Sat, 18 Apr 2026 17:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.327802
Title: Marrying Text-to-Motion Generation with Skeleton-Based Action Recognition
Title（参考訳）: 骨格に基づく行動認識によるテキスト・ツー・モーション生成
Authors: Jidong Kuang, Hongsong Wang, Jie Gui,
Abstract要約: 本研究は, 動作理解と生成の両方に骨格座標を応用して, 統合された動作認識と運動生成について検討する。本稿では,コーディネートに基づく自己回帰運動拡散(CoAMD)を提案する。本モデルは,骨格に基づく行動認識,テキスト・ツー・モーション生成,テキスト・モーション検索,モーション編集など,4つの重要なタスクに適用できる。
参考スコア（独自算出の注目度）: 26.447920160010515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human action recognition and motion generation are two active research problems in human-centric computer vision, both aiming to align motion with textual semantics. However, most existing works study these two problems separately, without uncovering the links between them, namely that motion generation requires semantic comprehension. This work investigates unified action recognition and motion generation by leveraging skeleton coordinates for both motion understanding and generation. We propose Coordinates-based Autoregressive Motion Diffusion (CoAMD), which synthesizes motion in a coarse-to-fine manner. As a core component of CoAMD, we design a Multi-modal Action Recognizer (MAR) that provides gradient-based semantic guidance for motion generation. Furthermore, we establish a rigorous benchmark by evaluating baselines on absolute coordinates. Our model can be applied to four important tasks, including skeleton-based action recognition, text-to-motion generation, text-motion retrieval, and motion editing. Extensive experiments on 13 benchmarks across these tasks demonstrate that our approach achieves state-of-the-art performance, highlighting its effectiveness and versatility for human motion modeling. Code is available at https://github.com/jidongkuang/CoAMD.
Abstract（参考訳）: 人間の行動認識と動き生成は、人間中心のコンピュータビジョンにおける2つの活発な研究課題であり、どちらも動きをテキストの意味論と整合させることを目的としている。しかし、既存のほとんどの研究はこれらの2つの問題を別々に研究し、それらの関係を明らかにすることなく、つまり、運動生成は意味的理解を必要とする。本研究は, 動作理解と生成の両方に骨格座標を応用して, 統合された動作認識と運動生成について検討する。本稿では,コーディネートに基づく自己回帰運動拡散(CoAMD)を提案する。 CoAMDのコアコンポーネントとして、動作生成のための勾配に基づくセマンティックガイダンスを提供するMAR(Multi-modal Action Regnitiveer)を設計する。さらに,絶対座標のベースラインを評価することで,厳密なベンチマークを確立する。本モデルは,骨格に基づく行動認識,テキスト・ツー・モーション生成,テキスト・モーション検索,モーション編集など,4つの重要なタスクに適用できる。これらのタスクにわたる13のベンチマーク実験により、我々の手法が最先端のパフォーマンスを実現し、人間のモーションモデリングの有効性と汎用性を強調した。コードはhttps://github.com/jidongkuang/CoAMD.comで入手できる。

関連論文リスト

Coordinate-Based Dual-Constrained Autoregressive Motion Generation [28.415421434583482]
コーディネートに基づくDual-Constrained Autoregressive Motion Generation (CDAMD) という,柔軟で高忠実でセマンティックに忠実なテキスト・トゥ・モーション・フレームワークを提案する。運動座標を入力として、CDAMDは自己回帰パラダイムに従い、拡散誘起多層パーセプトロンを利用して予測運動の忠実性を高める。座標に基づく動き合成には限界があるため、テキスト・ツー・モーション生成とモーション編集の両面での新しいベンチマークを確立する。
論文参考訳（メタデータ） (2026-04-09T11:05:29Z)
IRG-MotionLLM: Interleaving Motion Generation, Assessment and Refinement for Text-to-Motion Generation [54.36300724708094]
評価と改善のタスクは、理解と生成の間の双方向の知識フローを可能にするために重要なブリッジとして機能する。動作生成、評価、改善をシームレスにインターリーブし、生成性能を向上させる最初のモデルであるIRG-MotionLLMを紹介する。
論文参考訳（メタデータ） (2025-12-11T15:16:06Z)
MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。 2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-09-28T14:31:41Z)
Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition [36.662223760818584]
Trokensは、トラジェクトリポイントをアクション認識のための意味認識型リレーショナルトークンに変換する新しいアプローチである。本研究では, 軌跡のヒストグラム(Histogram of Oriented Displacements, HoD)と, 複雑な行動パターンをモデル化するための軌跡間関係(inter-trajectory relationship)により, 軌道内力学を捉える運動モデリングフレームワークを開発した。提案手法は,これらのトラジェクトリトークンとセマンティックな特徴を効果的に組み合わせて,動作情報による外観特徴の向上と,6つの多種多様なアクション認識ベンチマークにおける最先端性能の実現を実現する。
論文参考訳（メタデータ） (2025-08-05T17:59:58Z)
UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。 UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文参考訳（メタデータ） (2025-05-19T07:02:12Z)
Text-driven Motion Generation: Overview, Challenges and Directions [5.292618442300405]
テキスト駆動モーション生成は、自然言語から直接人間の動きを生成する、強力で直感的な方法を提供する。これは、仮想現実、ゲーム、人間とコンピュータのインタラクション、ロボット工学などの分野で特に有用である。この分野が現在どこにあるのかを把握し、重要な課題や限界に注意を向け、将来の探査に向けた有望な方向性を明らかにすることを目指しています。
論文参考訳（メタデータ） (2025-05-14T13:33:12Z)
KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:50:11Z)
ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文参考訳（メタデータ） (2023-11-28T18:59:52Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
Scene-aware Generative Network for Human Motion Synthesis [125.21079898942347]
シーンと人間の動きの相互作用を考慮した新しい枠組みを提案する。人間の動きの不確実性を考慮すると、このタスクを生成タスクとして定式化する。我々は、人間の動きと文脈シーンとの整合性を強制するための識別器を備えた、GANに基づく学習アプローチを導出する。
論文参考訳（メタデータ） (2021-05-31T09:05:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。