論文の概要: Kinetic Mining in Context: Few-Shot Action Synthesis via Text-to-Motion Distillation
- arxiv url: http://arxiv.org/abs/2512.11654v1
- Date: Fri, 12 Dec 2025 15:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.824569
- Title: Kinetic Mining in Context: Few-Shot Action Synthesis via Text-to-Motion Distillation
- Title(参考訳): 文脈における運動的マイニング:テキスト・ツー・モーション蒸留によるFew-Shotアクション合成
- Authors: Luca Cazzola, Ahed Alboody,
- Abstract要約: 数発のアクション合成のための伝達学習フレームワークであるKineMICを提案する。
私たちは、CLIPテキストの埋め込みを活用して、疎いHARラベルとT2Mソースデータとの対応を確立する、運動的マイニング戦略によってこれを運用する。
提案手法はよりコヒーレントな動きを発生させ, 精度が+23.1%向上するロバストなデータ拡張源を提供する。
- 参考スコア(独自算出の注目度): 0.29465623430708904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The acquisition cost for large, annotated motion datasets remains a critical bottleneck for skeletal-based Human Activity Recognition (HAR). Although Text-to-Motion (T2M) generative models offer a compelling, scalable source of synthetic data, their training objectives, which emphasize general artistic motion, and dataset structures fundamentally differ from HAR's requirements for kinematically precise, class-discriminative actions. This disparity creates a significant domain gap, making generalist T2M models ill-equipped for generating motions suitable for HAR classifiers. To address this challenge, we propose KineMIC (Kinetic Mining In Context), a transfer learning framework for few-shot action synthesis. KineMIC adapts a T2M diffusion model to an HAR domain by hypothesizing that semantic correspondences in the text encoding space can provide soft supervision for kinematic distillation. We operationalize this via a kinetic mining strategy that leverages CLIP text embeddings to establish correspondences between sparse HAR labels and T2M source data. This process guides fine-tuning, transforming the generalist T2M backbone into a specialized few-shot Action-to-Motion generator. We validate KineMIC using HumanML3D as the source T2M dataset and a subset of NTU RGB+D 120 as the target HAR domain, randomly selecting just 10 samples per action class. Our approach generates significantly more coherent motions, providing a robust data augmentation source that delivers a +23.1% accuracy points improvement. Animated illustrations and supplementary materials are available at (https://lucazzola.github.io/publications/kinemic).
- Abstract(参考訳): 大規模で注釈付きモーションデータセットの取得コストは、骨格ベースのヒューマンアクティビティ認識(HAR)にとって依然として重要なボトルネックである。
Text-to-Motion (T2M) 生成モデルは、魅力的な、スケーラブルな合成データのソースを提供するが、それらの訓練目的は、一般的な芸術的な動きを強調し、データセット構造は、運動学的に正確でクラス識別的な行動に対するHARの要求と根本的に異なる。
この格差は大きな領域ギャップを生じさせ、一般のT2MモデルはHAR分類器に適した動きを生成できない。
この課題に対処するために,数ショットアクション合成のための伝達学習フレームワークであるKineMIC(Kinetic Mining In Context)を提案する。
KineMICは、テキストエンコーディング空間における意味的対応が、キネマティック蒸留のソフトな監督を提供することができると仮定して、T2M拡散モデルをHARドメインに適応させる。
私たちは、CLIPテキストの埋め込みを活用して、疎いHARラベルとT2Mソースデータとの対応を確立する、運動的マイニング戦略によってこれを運用する。
このプロセスは微調整をガイドし、ジェネラリストのT2Mバックボーンを特別な数発のアクション・トゥ・モーション・ジェネレータに変換する。
我々は,HumanML3DをソースT2Mデータセットとして,NTU RGB+D 120のサブセットをターゲットHARドメインとしてKineMICを検証する。
提案手法はよりコヒーレントな動きを発生させ, 精度が+23.1%向上するロバストなデータ拡張源を提供する。
アニメーションイラストや補足資料はhttps://lucazzola.github.io/publications/kinemic.comで入手できる。
関連論文リスト
- A Renaissance of Explicit Motion Information Mining from Transformers for Action Recognition [87.12969639957441]
行動認識は、文脈集約能力のおかげで、トランスフォーマーベースの手法によって支配されている。
本稿では,これらの効果的な動作モデリング特性を,統一的かつ適切な方法で既存の変圧器に統合することを提案する。
提案手法は,既存の最先端手法,特に動きに敏感なデータセットよりも優れている。
論文 参考訳(メタデータ) (2025-10-21T15:01:48Z) - Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation [66.66243874361103]
1) 生成されたサンプルを対象のドメインに整列させ、2) トレーニングデータ以外の情報的なサンプルを生成する。
本稿では,ドメインアライメントに必要な概念に関連する重みのみを選択的に識別・更新する,新しい微調整手法であるConcept-Aware LoRAを提案する。
都市・シーンのセグメンテーション, ベースライン, 最先端の手法をドメイン内設定で生成する上での有効性を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:23:29Z) - Matching Skeleton-based Activity Representations with Heterogeneous Signals for HAR [30.418663483793804]
SKELARは骨格データから活動表現を事前訓練し、それらを異種HAR信号とマッチングする新しいフレームワークである。
SKELARは、フルショットと少数ショットの両方で最先端のパフォーマンスを達成する。
また,SKELARは合成骨格データを効果的に活用して,骨格収集を伴わないシナリオでの利用を拡張できることも実証した。
論文 参考訳(メタデータ) (2025-03-17T18:43:06Z) - Fg-T2M++: LLMs-Augmented Fine-Grained Text Driven Human Motion Generation [19.094098673523263]
テキスト駆動型人体動作生成のための新しいフレームワークを提案する。
Fg-T2M++ は,(1) 身体部分の記述と意味をテキストから抽出する LLM 意味解析モジュール,(2) テキスト単位間の関係情報をエンコードする双曲的テキスト表現モジュール,(3) テキストと運動の特徴を階層的に融合するマルチモーダル融合モジュールからなる。
論文 参考訳(メタデータ) (2025-02-08T11:38:12Z) - KETA: Kinematic-Phrases-Enhanced Text-to-Motion Generation via Fine-grained Alignment [5.287416596074742]
最先端のT2M技術は主に拡散モデルを利用してテキストプロンプトをガイダンスとして動作を生成する。
与えられたテキストを複数の分解されたテキストに分解するKETAを言語モデルを用いて提案する。
実験により、KETAはベースモデルの両バックボーン、モーション拡散モデルにおいて、最大1.19倍、2.34倍のR精度とFID値を達成することが示された。
論文 参考訳(メタデータ) (2025-01-25T03:43:33Z) - T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。
このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。
部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文 参考訳(メタデータ) (2024-09-20T06:20:00Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。