論文の概要: Free3D: 3D Human Motion Emerges from Single-View 2D Supervision
- arxiv url: http://arxiv.org/abs/2511.11368v1
- Date: Fri, 14 Nov 2025 14:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.661875
- Title: Free3D: 3D Human Motion Emerges from Single-View 2D Supervision
- Title(参考訳): Free3D:シングルビュー2Dスーパービジョンの3Dモーション
- Authors: Sheng Liu, Yuanzhi Liang, Sidan Du,
- Abstract要約: Free3Dは、3Dモーションアノテーションなしでリアルな3Dモーションを合成するフレームワークである。
完全に2Dモーションデータに基づいて訓練されたFree3Dは、多様で時間的に一貫性があり、意味的に整合した3Dモーションを生成する。
- 参考スコア(独自算出の注目度): 24.238045609839983
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent 3D human motion generation models demonstrate remarkable reconstruction accuracy yet struggle to generalize beyond training distributions. This limitation arises partly from the use of precise 3D supervision, which encourages models to fit fixed coordinate patterns instead of learning the essential 3D structure and motion semantic cues required for robust generalization.To overcome this limitation, we propose Free3D, a framework that synthesizes realistic 3D motions without any 3D motion annotations. Free3D introduces a Motion-Lifting Residual Quantized VAE (ML-RQ) that maps 2D motion sequences into 3D-consistent latent spaces, and a suite of 3D-free regularization objectives enforcing view consistency, orientation coherence, and physical plausibility. Trained entirely on 2D motion data, Free3D generates diverse, temporally coherent, and semantically aligned 3D motions, achieving performance comparable to or even surpassing fully 3D-supervised counterparts. These results suggest that relaxing explicit 3D supervision encourages stronger structural reasoning and generalization, offering a scalable and data-efficient paradigm for 3D motion generation.
- Abstract(参考訳): 近年の3次元運動生成モデルでは, 再現精度は顕著だが, トレーニング分布を超えた一般化に苦慮している。
この制限は、厳密な一般化に必要な3D構造や動作の意味を学習する代わりに、モデルに固定座標パターンを適合させることを奨励する精密な3D監督法によってもたらされるものであり、この制限を克服するために、我々は3Dモーションアノテーションを使わずに現実的な3Dモーションを合成するフレームワークであるFree3Dを提案する。
Free3Dは2次元のモーションシーケンスを3D一貫性のある潜在空間にマッピングするモーションリフティング・残留量子化VAE (ML-RQ) と、ビュー整合性、配向コヒーレンス、物理的妥当性を強制する3D自由正規化目的のスイートを導入している。
完全に2Dモーションデータに基づいてトレーニングされたFree3Dは、多種多様で、時間的に一貫性があり、セマンティックに整合した3Dモーションを生成し、完全な3D教師付きモーションに匹敵するパフォーマンスを達成する。
これらの結果から,明示的な3Dインスペクションの緩和は構造的推論と一般化を促進することが示唆され,スケーラブルでデータ効率のよい3Dモーションジェネレーションのパラダイムが提供される。
関連論文リスト
- 3D Aware Region Prompted Vision Language Model [99.4106711584584]
SR-3Dは、共有された視覚トークン空間を介して、シングルビュー2D画像とマルチビュー3Dデータを接続する。
SR-3Dはフレキシブルな領域プロンプトをサポートしており、バウンディングボックス、任意のフレーム上のセグメンテーションマスク、あるいは直接3Dでアノテートできる。
論文 参考訳(メタデータ) (2025-09-16T17:59:06Z) - Bridging Diffusion Models and 3D Representations: A 3D Consistent Super-Resolution Framework [51.20764440735875]
提案する3次元超解像(3DSR)は,新しい3次元ガウス散乱に基づく超解像フレームワークである。
3DSRは、明示的な3Dガウススプレイティングベースのシーン表現を使用することで、ビュー間の3D一貫性を促進する。
MipNeRF360およびLLFFデータ上で3DSRを評価し,視覚的に魅力的な高分解能な結果が得られることを示した。
論文 参考訳(メタデータ) (2025-08-06T05:12:02Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - SYM3D: Learning Symmetric Triplanes for Better 3D-Awareness of GANs [5.84660008137615]
SYM3Dは、自然と人造の物体で見られる主観対称性構造を活用するために設計された、新しい3D対応のGANである。
単視点画像のみを訓練しても, 詳細な形状やテクスチャを捉える上で, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-10T16:24:07Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。