論文の概要: SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
- arxiv url: http://arxiv.org/abs/2512.05905v1
- Date: Fri, 05 Dec 2025 17:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.115722
- Title: SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
- Title(参考訳): SCAIL: 3D-Consistent Pose Representationのインコンテキスト学習によるStudio-Grade文字アニメーションの実現
- Authors: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang,
- Abstract要約: 既存のアプローチでは、駆動ビデオから参照画像への動きを転送することができるが、しばしば野生のシナリオにおける構造的忠実さと時間的一貫性を維持できない。
textbfSCAIL (textbfStudio-grade textbfCharacter textbfAnimation via textbfIn-context textbfLL)は、2つの重要なイノベーションからこれらの課題に対処するために設計されたフレームワークである。
- 参考スコア(独自算出の注目度): 31.524598864213996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present \textbf{SCAIL} (\textbf{S}tudio-grade \textbf{C}haracter \textbf{A}nimation via \textbf{I}n-context \textbf{L}earning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that \textbf{SCAIL} achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.
- Abstract(参考訳): 近年の進歩にもかかわらず、スタジオグレードのプロダクション標準を満たすキャラクターアニメーションの達成は困難である。
既存のアプローチでは、駆動ビデオから参照画像への動きを転送することができるが、複雑な動きやクロスアイデンティティのアニメーションを含む野生のシナリオにおいて、構造的忠実さと時間的一貫性を維持できない場合が多い。
本稿では,2つの重要なイノベーションからこれらの課題に対処するために設計されたフレームワークである \textbf{SCAIL} (\textbf{S}tudio-grade \textbf{C}haracter \textbf{A}nimation via \textbf{I}n-context \textbf{L}earning)を提案する。
まず,より頑健で柔軟な動作信号を提供する新しい3次元ポーズ表現を提案する。
第2に、拡散変換器アーキテクチャにおいて、フルコンテキストのポーズ注入機構を導入し、フルモーションシーケンスに対する効果的な時空間推論を可能にする。
スタジオレベルの要件に合わせて,多様性と品質を両立させるキュレートされたデータパイプラインを開発し,システム評価のための総合的なベンチマークを確立する。
実験により, <textbf{SCAIL} は最先端のパフォーマンスを実現し, スタジオグレードの信頼性とリアリズムに向けてキャラクタアニメーションを進化させることが示された。
関連論文リスト
- OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution [34.8105632078785]
フィードフォワードフレームワークであるOnlineXを導入し、ストリーミング画像のみを用いて3次元の視覚的外観と言語フィールドをオンライン的に再構築する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合させ、忠実性と安定性の両方を達成する。
論文 参考訳(メタデータ) (2026-03-02T17:52:02Z) - CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild [41.0322780136795]
我々は32Kの3Dハンドモーションシーケンスとアライメントテキストからなるデータセットである「3D Hands in the Wild」(3D-HIW)を紹介する。
次に, LLMに基づく手動アニメーションシステムであるCLUTCHを提案する。 (a) ShiFT, (b) 手動をトークン化する新しいVQ-VAEアーキテクチャ, (b) LLMを微調整する幾何学的洗練段階である。
テキスト・トゥ・モーション・アンド・モーション・トゥ・テキストタスクにおける最先端性能の実証実験により、拡張性のある手動モデリングのための最初のベンチマークが確立された。
論文 参考訳(メタデータ) (2026-02-19T19:02:22Z) - IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - DreamActor-M2: Universal Character Image Animation via Spatiotemporal In-Context Learning [24.808926786222376]
本研究では,DreamActor-M2を提案する。DreamActor-M2は,動作条件をコンテキスト内学習問題として再定義する汎用アニメーションフレームワークである。
まず、参照の出現と動きの手がかりを統一された潜在空間に融合させることにより、入力モダリティギャップを橋渡しする。
次に、擬似的クロスアイデンティティトレーニングペアをキュレートする自己ブートストラップデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2026-01-29T13:43:17Z) - STARCaster: Spatio-Temporal AutoRegressive Video Diffusion for Identity- and View-Aware Talking Portraits [44.82339975771063]
STARCasterは、音声駆動のポートレートアニメーションとフリーポイントのトーキングポートレートの両方に対処する、アイデンティティを意識したビデオ拡散モデルである。
モデルは推論時に生成されたものよりも長い時間的文脈から学習し、既存の自己回帰的アプローチに共通する過度に静的なアニメーションを緩和する。
論文 参考訳(メタデータ) (2025-12-15T11:59:01Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - 4-Doodle: Text to 3D Sketches that Move! [60.89021458068987]
4-Doodleは、テキストから動的3Dスケッチを生成するための、最初のトレーニング不要のフレームワークである。
提案手法は時間的にリアルかつ構造的に安定な3次元スケッチアニメーションを生成し,忠実度と可制御性の両方において既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-29T09:33:29Z) - Puppeteer: Rig and Animate Your 3D Models [105.11046762553121]
Puppeteerは、さまざまな3Dオブジェクトの自動リギングとアニメーションの両方に対処する包括的なフレームワークである。
本システムはまず, 自己回帰変換器を用いて, 可塑性骨格構造を推定する。
その後、注意に基づくアーキテクチャにより、皮膚の重量を推定する。
論文 参考訳(メタデータ) (2025-08-14T17:59:31Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。