論文の概要: Disentangling 3D from Large Vision-Language Models for Controlled Portrait Generation
- arxiv url: http://arxiv.org/abs/2506.14015v1
- Date: Mon, 16 Jun 2025 21:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.25174
- Title: Disentangling 3D from Large Vision-Language Models for Controlled Portrait Generation
- Title(参考訳): 制御されたポートレート生成のための大規模視線モデルから3次元を遠ざける
- Authors: Nick Yiwen Huang, Akin Caliskan, Berkay Kicanaoglu, James Tompkin, Hyeongwoo Kim,
- Abstract要約: 本稿では,大規模な視覚言語モデルから3Dを遠ざけることの問題点について考察する。
これにより、年齢、髪型、眼鏡などの外観特性の自由形式のテキスト制御や、顔の表情とカメラポーズの3D幾何学制御が可能になる。
既存の手法と比較して,本手法では,テキストと3D制御を付加したポートレートを生成する。
- 参考スコア(独自算出の注目度): 9.325977756516908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of disentangling 3D from large vision-language models, which we show on generative 3D portraits. This allows free-form text control of appearance attributes like age, hair style, and glasses, and 3D geometry control of face expression and camera pose. In this setting, we assume we use a pre-trained large vision-language model (LVLM; CLIP) to generate from a smaller 2D dataset with no additional paired labels and with a pre-defined 3D morphable model (FLAME). First, we disentangle using canonicalization to a 2D reference frame from a deformable neural 3D triplane representation. But another form of entanglement arises from the significant noise in the LVLM's embedding space that describes irrelevant features. This damages output quality and diversity, but we overcome this with a Jacobian regularization that can be computed efficiently with a stochastic approximator. Compared to existing methods, our approach produces portraits with added text and 3D control, where portraits remain consistent when either control is changed. Broadly, this approach lets creators control 3D generators on their own 2D face data without needing resources to label large data or train large models.
- Abstract(参考訳): 本稿では,大規模な視覚言語モデルから3Dを遠ざけることの問題点について考察する。
これにより、年齢、髪型、眼鏡などの外観特性の自由形式のテキスト制御や、顔の表情とカメラポーズの3D幾何学制御が可能になる。
この設定では、事前訓練された大型視覚言語モデル(LVLM; CLIP)を用いて、追加のペアラベルを持たない小さな2次元データセットから、事前定義された3次元形態素モデル(FLAME)を生成すると仮定する。
まず、変形可能なニューラル3次元平面表現から2次元参照フレームへの正準化を用いる。
しかし、別の形の絡み合いは、無関係な特徴を記述するLVLMの埋め込み空間における大きなノイズから生じる。
これは出力品質と多様性を損なうが、確率近似器で効率的に計算できるヤコビ正規化によってこれを克服する。
既存の手法と比較して,本手法では,テキストと3D制御を付加したポートレートを生成する。
大規模なデータをラベル付けしたり、大きなモデルを訓練するためのリソースを必要とせずに、クリエイターが自分の2D顔データで3Dジェネレータを制御できる。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - RAFaRe: Learning Robust and Accurate Non-parametric 3D Face
Reconstruction from Pseudo 2D&3D Pairs [13.11105614044699]
単視3次元顔再構成(SVFR)のための頑健で正確な非パラメトリック手法を提案する。
大規模な擬似2D&3Dデータセットは、まず詳細な3D顔をレンダリングし、野生の画像の顔と描画された顔とを交換することによって作成される。
本モデルは,FaceScape-wild/labおよびMICCベンチマークにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-10T19:40:26Z) - Building 3D Generative Models from Minimal Data [3.472931603805115]
一つの3Dテンプレート(1人1人ではなく1人1人)で顔の認識が可能であることを示す。
我々は,1つの3次元テンプレートと少数の2次元画像を用いて,3次元顔の分布の学習を可能にする,予備的な教師なし学習フレームワークにモデルを拡張した。
論文 参考訳(メタデータ) (2022-03-04T20:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。