Fugu-MT 論文翻訳(概要): CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

論文の概要: CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

arxiv url: http://arxiv.org/abs/2602.17770v1
Date: Thu, 19 Feb 2026 19:02:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.108041
Title: CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild
Title（参考訳）: CLUTCH:野生におけるテキスト記述型ハンドモーションモデリングのための文脈言語モデル
Authors: Balamurugan Thambiraja, Omid Taheri, Radek Danecek, Giorgio Becherini, Gerard Pons-Moll, Justus Thies,
Abstract要約: 我々は32Kの3Dハンドモーションシーケンスとアライメントテキストからなるデータセットである「3D Hands in the Wild」(3D-HIW)を紹介する。次に, LLMに基づく手動アニメーションシステムであるCLUTCHを提案する。 (a) ShiFT, (b) 手動をトークン化する新しいVQ-VAEアーキテクチャ, (b) LLMを微調整する幾何学的洗練段階である。テキスト・トゥ・モーション・アンド・モーション・トゥ・テキストタスクにおける最先端性能の実証実験により、拡張性のある手動モデリングのための最初のベンチマークが確立された。
参考スコア（独自算出の注目度）: 41.0322780136795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hands play a central role in daily life, yet modeling natural hand motions remains underexplored. Existing methods that tackle text-to-hand-motion generation or hand animation captioning rely on studio-captured datasets with limited actions and contexts, making them costly to scale to "in-the-wild" settings. Further, contemporary models and their training schemes struggle to capture animation fidelity with text-motion alignment. To address this, we (1) introduce '3D Hands in the Wild' (3D-HIW), a dataset of 32K 3D hand-motion sequences and aligned text, and (2) propose CLUTCH, an LLM-based hand animation system with two critical innovations: (a) SHIFT, a novel VQ-VAE architecture to tokenize hand motion, and (b) a geometric refinement stage to finetune the LLM. To build 3D-HIW, we propose a data annotation pipeline that combines vision-language models (VLMs) and state-of-the-art 3D hand trackers, and apply it to a large corpus of egocentric action videos covering a wide range of scenarios. To fully capture motion in-the-wild, CLUTCH employs SHIFT, a part-modality decomposed VQ-VAE, which improves generalization and reconstruction fidelity. Finally, to improve animation quality, we introduce a geometric refinement stage, where CLUTCH is co-supervised with a reconstruction loss applied directly to decoded hand motion parameters. Experiments demonstrate state-of-the-art performance on text-to-motion and motion-to-text tasks, establishing the first benchmark for scalable in-the-wild hand motion modelling. Code, data and models will be released.
Abstract（参考訳）: 手は日常生活において中心的な役割を担っているが、自然な手の動きをモデル化するには未熟である。テキスト・トゥ・ハンドモーション生成や手動アニメーションのキャプションに対処する既存の方法は、アクションとコンテキストが制限されたスタジオキャプチャデータセットに依存しているため、"イン・ザ・ワイルド"な設定にスケールするのにコストがかかる。さらに、同時代のモデルとそのトレーニングスキームは、テキストモーションアライメントによるアニメーションの忠実さの獲得に苦慮している。これを解決するために、(1)32Kの3Dハンドモーションシーケンスとアライメントテキストからなるデータセットである「野生の3Dハンド」(3D-HIW)を導入し、(2)LLMベースの手動アニメーションシステムであるCLUTCHを提案する。 (a)手の動きをトークン化する新しいVQ-VAEアーキテクチャShiFT b) LLMを微調整する幾何学的精錬段階。 3D-HIWを構築するために,視覚言語モデル(VLM)と最先端の3Dハンドトラッカーを組み合わせたデータアノテーションパイプラインを提案する。 CLUTCHは動きを完全に捉えるために、VQ-VAEを一部分解したShiFTを採用し、一般化と再構築の精度を向上させる。最後に、アニメーションの質を向上させるために、CLUTCHをデコードされた手の動きパラメータに直接適用した再構成損失と併用する幾何学的洗練ステージを導入する。実験では、テキスト・トゥ・モーションおよびモーション・トゥ・テキストタスクにおける最先端の性能を実証し、拡張性のある手動モデリングのための最初のベンチマークを確立した。コード、データ、モデルがリリースされる。

関連論文リスト

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens [89.05195827071582]
SceMoSはシーン対応モーション合成フレームワークである。軽量な2Dキューを使用して、グローバルプランニングをローカル実行から切り離す。 SceMoSはTRUMANSベンチマークで最先端のモーションリアリズムと接触精度を達成する。
論文参考訳（メタデータ） (2026-02-24T02:09:12Z)
UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文参考訳（メタデータ） (2025-12-03T16:03:18Z)
UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes [26.71077287710599]
シーン認識型人間の動作に拡散に基づく生成を利用する統一運動言語モデルUniHMを提案する。 UniHMは、複雑な3DシーンでText-to-MotionとText-to-Human-Object Interaction (HOI)の両方をサポートする最初のフレームワークである。提案手法では, 動作リアリズムを改善するために, 連続した6DoF運動と離散的な局所運動トークンを融合する混合運動表現, 従来のVQ-VAEを上回り, 再現精度と生成性能を両立させる新規なLook-Up-Free Quantization VAE, 強化されたバージョンの3つの重要なコントリビューションを導入している。
論文参考訳（メタデータ） (2025-05-19T07:02:12Z)
Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文参考訳（メタデータ） (2024-12-17T17:34:52Z)
MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文参考訳（メタデータ） (2024-08-01T16:58:50Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
Learning Human Motion from Monocular Videos via Cross-Modal Manifold Alignment [45.74813582690906]
2次元入力から人間の3D動作を学ぶことは、コンピュータビジョンとコンピュータグラフィックスの領域における基本的な課題である。本稿では、モーダルなラテント特徴空間アライメントにより、動きの先行値を活用するビデオ・トゥ・モーション・ジェネレータ(VTM)を提案する。 VTMでは、モノクロビデオから3Dの人間の動きを再構築する、最先端のパフォーマンスが紹介されている。
論文参考訳（メタデータ） (2024-04-15T06:38:09Z)
Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文参考訳（メタデータ） (2022-12-08T17:25:19Z)
Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。 NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文参考訳（メタデータ） (2022-10-28T06:20:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。