論文の概要: Feedforward 3D Editing via Text-Steerable Image-to-3D
- arxiv url: http://arxiv.org/abs/2512.13678v1
- Date: Mon, 15 Dec 2025 18:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.828656
- Title: Feedforward 3D Editing via Text-Steerable Image-to-3D
- Title(参考訳): テキスト・ステアブル・イメージ・トゥ・3Dによるフィードフォワード3次元編集
- Authors: Ziqi Ma, Hongqiao Chen, Yisong Yue, Georgia Gkioxari,
- Abstract要約: 画像から3Dモデルにテキストステアビリティを追加するためのフィードフォワード手法であるSteer3Dを提案する。
われわれのアプローチは、フォワードパスで直接テキストのステアリングを可能にするControlNetにインスパイアされている。
競合するメソッドと比較して、Steer3Dはより忠実に言語命令に従い、元の3Dアセットとの整合性を維持する。
- 参考スコア(独自算出の注目度): 28.242407909243934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in image-to-3D has opened up immense possibilities for design, AR/VR, and robotics. However, to use AI-generated 3D assets in real applications, a critical requirement is the capability to edit them easily. We present a feedforward method, Steer3D, to add text steerability to image-to-3D models, which enables editing of generated 3D assets with language. Our approach is inspired by ControlNet, which we adapt to image-to-3D generation to enable text steering directly in a forward pass. We build a scalable data engine for automatic data generation, and develop a two-stage training recipe based on flow-matching training and Direct Preference Optimization (DPO). Compared to competing methods, Steer3D more faithfully follows the language instruction and maintains better consistency with the original 3D asset, while being 2.4x to 28.5x faster. Steer3D demonstrates that it is possible to add a new modality (text) to steer the generation of pretrained image-to-3D generative models with 100k data. Project website: https://glab-caltech.github.io/steer3d/
- Abstract(参考訳): 画像から3Dへの最近の進歩は、デザイン、AR/VR、ロボット工学の膨大な可能性を開く。
しかし、実際のアプリケーションでAI生成した3Dアセットを使用するには、それらを簡単に編集する能力が必須である。
本稿では,画像から3Dモデルへのテキストステアビリティを付加するフィードフォワード手法であるSteer3Dを提案する。
当社のアプローチは,画像から3D生成に適応して,フォワードパスで直接テキストステアリングを可能にするControlNetにインスパイアされている。
自動データ生成のためのスケーラブルなデータエンジンを構築し,フローマッチングトレーニングとDPO(Direct Preference Optimization)に基づく2段階のトレーニングレシピを開発した。
競合する手法と比較して、Steer3Dは言語命令に忠実に従い、2.4倍から28.5倍の速度で元の3Dアセットとの整合性を維持している。
Steer3Dは、100kデータで事前訓練された画像から3D生成モデルを生成するために、新しいモダリティ(テキスト)を追加することができることを示した。
プロジェクトサイト:https://glab-caltech.github.io/steer3d/
関連論文リスト
- ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding [16.95099884066268]
ShapeLLM-Omniは、任意のシーケンスで3Dのアセットとテキストを理解し、生成できる3Dの大規模言語モデルである。
3D対応離散トークンに基づいて、3D-Alpacaという大規模連続トレーニングデータセットを革新的に構築する。
我々の研究は、基本的な3D機能を備えたマルチモーダルモデルを効果的に拡張する試みであり、将来の3DネイティブAIの研究に寄与する。
論文 参考訳(メタデータ) (2025-06-02T16:40:50Z) - 3D-Fixup: Advancing Photo Editing with 3D Priors [32.83193513442457]
3D-Fixupは、学習した3Dプリエントによってガイドされた2Dイメージを編集する新しいフレームワークである。
拡散モデルの生成力を利用するトレーニングベースアプローチを利用する。
3D-Fixupは複雑でアイデンティティの整合した3D認識編集を効果的にサポートする。
論文 参考訳(メタデータ) (2025-05-15T17:59:51Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - From Thousands to Billions: 3D Visual Language Grounding via Render-Supervised Distillation from 2D VLMs [64.28181017898369]
LIFT-GSはポイントクラウドから3Dガウス表現を予測し、予測された言語条件の3Dマスクを2Dビューにレンダリングする。
LIFT-GSは、オープン語彙のインスタンスセグメンテーションで25.7%のmAPで最先端の結果を達成する。
注目すべきは、事前トレーニングがデータセットの微調整を2倍にし、強力なスケーリング特性を示すことだ。
論文 参考訳(メタデータ) (2025-02-27T18:59:11Z) - OneTo3D: One Image to Re-editable Dynamic 3D Model and Video Generation [0.0]
編集可能なダイナミック3Dモデルとビデオ生成のための1つの画像は、単一の画像の研究領域を3D表現や画像の3D再構成に変換する新しい方向と変化である。
編集可能な3Dモデルを生成し,対象とする連続時間無制限の3Dビデオを生成するために,単一の画像を使用する方法と理論であるOneTo3Dを提案する。
論文 参考訳(メタデータ) (2024-05-10T15:44:11Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。