論文の概要: Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
- arxiv url: http://arxiv.org/abs/2602.09713v2
- Date: Mon, 16 Feb 2026 03:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.553372
- Title: Stroke3D: Lifting 2D strokes into rigged 3D model via latent diffusion models
- Title(参考訳): ストローク3D:潜時拡散モデルによる2次元ストロークのリフティング3次元モデル
- Authors: Ruisi Zhao, Haoren Zheng, Zongxin Yang, Hehe Fan, Yi Yang,
- Abstract要約: Stroke3Dは、ユーザ入力から2D描画ストロークと記述テキストプロンプトを直接生成する新しいフレームワークである。
私たちの知識を最大限に活用するために、私たちの研究は、ユーザ引き起こされた2Dストロークに条件付けされたトリグされた3Dメッシュを初めて生成しました。
- 参考スコア(独自算出の注目度): 53.32092058519587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rigged 3D assets are fundamental to 3D deformation and animation. However, existing 3D generation methods face challenges in generating animatable geometry, while rigging techniques lack fine-grained structural control over skeleton creation. To address these limitations, we introduce Stroke3D, a novel framework that directly generates rigged meshes from user inputs: 2D drawn strokes and a descriptive text prompt. Our approach pioneers a two-stage pipeline that separates the generation into: 1) Controllable Skeleton Generation, we employ the Skeletal Graph VAE (Sk-VAE) to encode the skeleton's graph structure into a latent space, where the Skeletal Graph DiT (Sk-DiT) generates a skeletal embedding. The generation process is conditioned on both the text for semantics and the 2D strokes for explicit structural control, with the VAE's decoder reconstructing the final high-quality 3D skeleton; and 2) Enhanced Mesh Synthesis via TextuRig and SKA-DPO, where we then synthesize a textured mesh conditioned on the generated skeleton. For this stage, we first enhance an existing skeleton-to-mesh model by augmenting its training data with TextuRig: a dataset of textured and rigged meshes with captions, curated from Objaverse-XL. Additionally, we employ a preference optimization strategy, SKA-DPO, guided by a skeleton-mesh alignment score, to further improve geometric fidelity. Together, our framework enables a more intuitive workflow for creating ready to animate 3D content. To the best of our knowledge, our work is the first to generate rigged 3D meshes conditioned on user-drawn 2D strokes. Extensive experiments demonstrate that Stroke3D produces plausible skeletons and high-quality meshes.
- Abstract(参考訳): トリグされた3Dアセットは、3D変形とアニメーションの基礎である。
しかし、既存の3D生成手法は、アニマタブルな幾何学を生成する上で困難に直面する一方、リギング技術は骨格の生成に対してきめ細かい構造制御を欠いている。
これらの制約に対処するため,ユーザ入力からトリガメッシュを直接生成する新しいフレームワークであるStroke3Dを紹介した。
私たちのアプローチは、世代を次の2段階に分けるパイプラインのパイオニアです。
1)骨格グラフVAE(Sk-VAE)を用いて骨格グラフ構造を潜在空間に符号化し,骨格グラフDiT(Sk-DiT)が骨格埋め込みを生成する。
生成プロセスはセマンティクスのためのテキストと明示的な構造制御のための2Dストロークの両方で条件付けられ、VAEのデコーダは最終的な高品質な3D骨格を再構築する。
2) TextuRig と SKA-DPO による拡張メッシュ合成を行い, 生成した骨格に条件付きテクスチャメッシュを合成する。
この段階では,Objaverse-XLからキュレートしたテクスチャ付きメッシュとリガ付きメッシュのデータセットであるTextuRigを用いて,トレーニングデータを増強することにより,既存のスケルトン・ツー・メッシュモデルを強化する。
さらに,スケルトン・メッシュアライメントスコアによって導かれる選好最適化戦略であるSKA-DPOを用いて,幾何学的忠実度をさらに向上する。
同時に、我々のフレームワークはより直感的に3Dコンテンツをアニメーションする準備ができるワークフローを可能にします。
私たちの知識を最大限に活用するために、私たちの研究は、ユーザ引き起こされた2Dストロークに条件付けされたトリグされた3Dメッシュを初めて生成しました。
大規模な実験により、ストローク3Dは可塑性骨格と高品質メッシュを生産することが示された。
関連論文リスト
- VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator [69.72818094722186]
テキスト・ビデオ・ジェネレータは「デコーダ」として3次元再構成システムと組み合わせることができる
私たちは、VIST3Aという、まさにそれを行う一般的なフレームワークを紹介します。
ビデオジェネレータと3次元再構成モデルを用いたVIST3A手法の評価を行った。
論文 参考訳(メタデータ) (2025-10-15T11:55:08Z) - End-to-End Fine-Tuning of 3D Texture Generation using Differentiable Rewards [8.953379216683732]
本稿では,人間のフィードバックを3次元テクスチャパイプラインに直接埋め込む,エンドツーエンドの微分可能・強化学習不要なフレームワークを提案する。
幾何学的および外見的モジュールによる好み信号のバックプロパゲーションにより、3次元幾何学的構造を尊重し、所望の基準と整合するテクスチャを生成する。
論文 参考訳(メタデータ) (2025-06-23T06:24:12Z) - Text-based Animatable 3D Avatars with Morphable Model Alignment [19.523681764512357]
テキストベースのリアルなアニマタブル3DGSアバター生成のための新しいフレームワークAnim3Dを提案する。
提案手法は,合成品質,アライメント,アニメーションの忠実度の観点から,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-22T12:29:14Z) - RigGS: Rigging of 3D Gaussians for Modeling Articulated Objects in Videos [50.37136267234771]
RigGSは3次元ガウス表現と骨格に基づく運動表現を利用して動的オブジェクトをモデル化する新しいパラダイムである。
提案手法は,オブジェクトに対する現実的な新しいアクションを容易に生成し,高品質なレンダリングを実現する。
論文 参考訳(メタデータ) (2025-03-21T03:27:07Z) - HumanRig: Learning Automatic Rigging for Humanoid Character in a Large Scale Dataset [6.978870586488504]
我々は3次元ヒューマノイドキャラクタリギング用に特別に設計された最初の大規模データセットであるHumanRigを紹介する。
本稿では,GNN方式の限界を克服する,革新的なデータ駆動型自動リギングフレームワークを提案する。
この作業は、リギング研究におけるデータセット不足を修復するだけでなく、アニメーション産業をより効率的かつ自動化されたキャラクタリギングパイプラインへと発展させる。
論文 参考訳(メタデータ) (2024-12-03T09:33:00Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from
Sparse Image Ensemble [72.3681707384754]
Hi-LASSIEは、ユーザーが定義した形状やスケルトンテンプレートを使わずに、野生の20~30のオンライン画像から3Dで再現する。
まず,手動でアノテートした3Dスケルトンに頼る代わりに,選択した基準画像からクラス固有のスケルトンを自動的に推定する。
第二に、各インスタンスに忠実に適合する新しいインスタンス固有の最適化戦略により、形状再構成を改善する。
論文 参考訳(メタデータ) (2022-12-21T14:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。