論文の概要: ARMO: Autoregressive Rigging for Multi-Category Objects
- arxiv url: http://arxiv.org/abs/2503.20663v1
- Date: Wed, 26 Mar 2025 15:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:14.757226
- Title: ARMO: Autoregressive Rigging for Multi-Category Objects
- Title(参考訳): ARMO: マルチカテゴリオブジェクトのための自動回帰リギング
- Authors: Mingze Sun, Shiwei Mao, Keyi Chen, Yurun Chen, Shunlin Lu, Jingbo Wang, Junting Dong, Ruqi Huang,
- Abstract要約: 我々はOmniRigを紹介した。OmniRigは79,499個のメッシュで構成され、詳細なスケルトンとスキン情報を含んでいる。
定義済みの標準ポーズに依存する従来のベンチマークとは異なり、データセットにはさまざまな形状カテゴリ、スタイル、ポーズが採用されています。
本稿では、自己回帰モデルを用いて、関節位置と接続関係を統一的に予測する新しいリギングフレームワークARMOを提案する。
- 参考スコア(独自算出の注目度): 8.030479370619458
- License:
- Abstract: Recent advancements in large-scale generative models have significantly improved the quality and diversity of 3D shape generation. However, most existing methods focus primarily on generating static 3D models, overlooking the potentially dynamic nature of certain shapes, such as humanoids, animals, and insects. To address this gap, we focus on rigging, a fundamental task in animation that establishes skeletal structures and skinning for 3D models. In this paper, we introduce OmniRig, the first large-scale rigging dataset, comprising 79,499 meshes with detailed skeleton and skinning information. Unlike traditional benchmarks that rely on predefined standard poses (e.g., A-pose, T-pose), our dataset embraces diverse shape categories, styles, and poses. Leveraging this rich dataset, we propose ARMO, a novel rigging framework that utilizes an autoregressive model to predict both joint positions and connectivity relationships in a unified manner. By treating the skeletal structure as a complete graph and discretizing it into tokens, we encode the joints using an auto-encoder to obtain a latent embedding and an autoregressive model to predict the tokens. A mesh-conditioned latent diffusion model is used to predict the latent embedding for conditional skeleton generation. Our method addresses the limitations of regression-based approaches, which often suffer from error accumulation and suboptimal connectivity estimation. Through extensive experiments on the OmniRig dataset, our approach achieves state-of-the-art performance in skeleton prediction, demonstrating improved generalization across diverse object categories. The code and dataset will be made public for academic use upon acceptance.
- Abstract(参考訳): 大規模生成モデルの最近の進歩は、3次元形状生成の品質と多様性を著しく向上させてきた。
しかし、既存のほとんどの手法は、主に静的な3Dモデルの生成に焦点を当てており、ヒューマノイド、動物、昆虫のような特定の形状のダイナミックな性質を見下ろしている。
このギャップに対処するために、我々は3Dモデルの骨格構造とスキンを構築するアニメーションの基本的なタスクであるリギングに焦点を当てた。
本稿では,79,499個のメッシュからなる最初の大規模リギングデータセットであるOmniRigについて紹介する。
定義済みの標準ポーズ(例えば、A-pose、T-pose)に依存する従来のベンチマークとは異なり、データセットにはさまざまな形状のカテゴリ、スタイル、ポーズが採用されています。
このリッチデータセットを活用することで,関節位置と接続関係を統一的に予測する自己回帰モデルを用いた新しいリギングフレームワークARMOを提案する。
骨格構造を完全なグラフとして扱いトークンに識別することにより,自動エンコーダを用いてジョイントを符号化し,遅延埋め込みと自己回帰モデルを用いてトークンを予測する。
メッシュ条件付き潜伏拡散モデルを用いて、条件付き骨格生成のための潜伏埋め込みを予測する。
提案手法は,誤り蓄積や最適接続推定に悩まされるレグレッションベースのアプローチの限界に対処する。
OmniRigデータセットに関する広範な実験を通じて,本手法は骨格予測における最先端性能を実現し,多種多様な対象カテゴリにおける一般化の向上を実証した。
コードとデータセットは受理後、学術的利用のために公開される。
関連論文リスト
- MagicArticulate: Make Your 3D Models Articulation-Ready [109.35703811628045]
静的な3Dモデルを自動的に調音可能なアセットに変換する効果的なフレームワークであるMagicArticulateを提案する。
まず,高品質な調音アノテーションを備えた33k以上の3Dモデルを含むArticulation-averseベンチマークを紹介し,XL-XLから慎重にキュレートする。
大規模な実験では、MagicArticulateはさまざまなオブジェクトカテゴリで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-17T18:53:27Z) - RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets [47.81216915952291]
本稿では,新しい自己回帰変換モデルであるRigAnythingを紹介する。
関節や骨格のトポロジを確率的に生成し、スキンの重量をテンプレートのない方法で割り当てることで、3Dアセットを準備できる。
RigAnythingは、ヒューマノイド、四足動物、海洋生物、昆虫など、さまざまな種類の物体で最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-13T18:59:13Z) - HumanRig: Learning Automatic Rigging for Humanoid Character in a Large Scale Dataset [6.978870586488504]
我々は3次元ヒューマノイドキャラクタリギング用に特別に設計された最初の大規模データセットであるHumanRigを紹介する。
本稿では,GNN方式の限界を克服する,革新的なデータ駆動型自動リギングフレームワークを提案する。
この作業は、リギング研究におけるデータセット不足を修復するだけでなく、アニメーション産業をより効率的かつ自動化されたキャラクタリギングパイプラインへと発展させる。
論文 参考訳(メタデータ) (2024-12-03T09:33:00Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Domain Generalization via Ensemble Stacking for Face Presentation Attack
Detection [4.61143637299349]
顔提示攻撃検出(PAD)は、偽造攻撃に対する顔認識システムを保護する上で重要な役割を担っている。
本研究では,合成データ生成と深層アンサンブル学習を組み合わせた包括的ソリューションを提案する。
4つのデータセットに対する実験結果は、3つのベンチマークデータセット上でのHTER(low half total error rate)を示す。
論文 参考訳(メタデータ) (2023-01-05T16:44:36Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。