論文の概要: Sketch2Colab: Sketch-Conditioned Multi-Human Animation via Controllable Flow Distillation
- arxiv url: http://arxiv.org/abs/2603.02190v1
- Date: Mon, 02 Mar 2026 18:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.040173
- Title: Sketch2Colab: Sketch-Conditioned Multi-Human Animation via Controllable Flow Distillation
- Title(参考訳): Sketch2Colab:制御可能なフロー蒸留によるスケッチコンディションマルチヒューマンアニメーション
- Authors: Divyanshu Daiya, Aniket Bera,
- Abstract要約: 我々はSketch2Colabを紹介し、ストーリーボードスタイルの2Dスケッチを、エージェント、関節、タイミング、接触をきめ細かな制御で、コヒーレントでオブジェクト対応の3Dモーションに変換する。
CORE4DとInterHumanの実験では、Sketch2Colabは拡散のみのベースラインよりもはるかに高速な推論を提供しながら、最先端の制約順守と知覚品質を実現している。
- 参考スコア(独自算出の注目度): 15.17419689257198
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Sketch2Colab, which turns storyboard-style 2D sketches into coherent, object-aware 3D multi-human motion with fine-grained control over agents, joints, timing, and contacts. Conventional diffusion-based motion generators have advanced realism; however, achieving precise adherence to rich interaction constraints typically demands extensive training and/or costly posterior guidance, and performance can degrade under strong multi-entity conditioning. Sketch2Colab instead first learns a sketch-driven diffusion prior and then distills it into an efficient rectified-flow student operating in latent space for fast, stable sampling. Differentiable energies over keyframes, trajectories, and physics-based constraints directly shape the student's transport field, steering samples toward motions that faithfully satisfy the storyboard while remaining physically plausible. To capture coordinated interaction, we augment the continuous flow with a continuous-time Markov chain (CTMC) planner that schedules discrete events such as touches, grasps, and handoffs, modulating the dynamics to produce crisp, well-phased human-object-human collaborations. Experiments on CORE4D and InterHuman show that Sketch2Colab achieves state-of-the-art constraint adherence and perceptual quality while offering significantly faster inference than diffusion-only baselines.
- Abstract(参考訳): 我々はSketch2Colabを紹介し、ストーリーボードスタイルの2Dスケッチを、エージェント、関節、タイミング、接触をきめ細かな制御で、コヒーレントでオブジェクト認識の多次元動作に変換する。
従来の拡散型モーションジェネレータは高度なリアリズムを持つが、リッチな相互作用の制約を正確に守るためには、広範囲のトレーニングと/またはコストのかかる後続誘導が必要であり、強いマルチエンタリティ条件下で性能が劣化する可能性がある。
Sketch2Colabは、まず最初にスケッチ駆動拡散を学習し、高速で安定したサンプリングのために、潜伏空間で効率的に整流する学生に蒸留する。
キーフレーム、軌道、物理に基づく制約に対する異なるエネルギーは、生徒の移動場を直接形成し、物理的に妥当なまま、ストーリーボードを忠実に満足させる動きに向けてサンプルを操る。
協調的相互作用を捉えるために,タッチやグリップ,ハンドオフといった個別のイベントをスケジュールする連続的時間的マルコフ連鎖(CTMC)プランナを用いて連続的なフローを拡大し,ダイナミックスを調整し,鮮明でよく相性の良い人間と人間とのコラボレーションを創出する。
CORE4DとInterHumanの実験では、Sketch2Colabは拡散のみのベースラインよりもはるかに高速な推論を提供しながら、最先端の制約順守と知覚品質を実現している。
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Planning with Sketch-Guided Verification for Physics-Aware Video Generation [71.29706409814324]
そこで我々は,SketchVerifyを,ビデオ生成のためのトレーニングフリーでスケッチ検証ベースの計画フレームワークとして提案する。
提案手法は,複数の候補動きプランを予測し,視覚言語検証器を用いてランク付けする。
我々は、満足なものが特定されるまで運動計画を反復的に洗練し、最終的な合成のために軌道条件付きジェネレータに渡される。
論文 参考訳(メタデータ) (2025-11-21T17:48:02Z) - 4-Doodle: Text to 3D Sketches that Move! [60.89021458068987]
4-Doodleは、テキストから動的3Dスケッチを生成するための、最初のトレーニング不要のフレームワークである。
提案手法は時間的にリアルかつ構造的に安定な3次元スケッチアニメーションを生成し,忠実度と可制御性の両方において既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-29T09:33:29Z) - WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance [17.295532380360992]
WorldForgeは3つの密結合モジュールからなるトレーニング不要の推論時間フレームワークである。
我々のフレームワークはプラグアンドプレイとモデル非依存であり、様々な3D/4Dタスクに適用可能である。
論文 参考訳(メタデータ) (2025-09-18T16:40:47Z) - MotionGPT3: Human Motion as a Second Modality [28.616340011811843]
MotionGPT3は、理解と生成の両方のためのバイモーダルモーション言語モデルである。
共通注意を持つデュアルストリームトランスは、制御された双方向情報フローを実現しつつ、モダリティ固有の経路を保存する。
実験により、MotionGPT3はトレーニング損失の2倍高速収束、検証の最大4倍高速収束を実現している。
論文 参考訳(メタデータ) (2025-06-30T17:42:22Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control [16.319698848279966]
物理に基づくルックアヘッド制御のためのガイド付き拡散フレームワークであるDiffuse-CLoCを提案する。
直感的で、ステアブルで、物理的にリアルなモーション生成を可能にする。
論文 参考訳(メタデータ) (2025-03-14T18:42:29Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。