論文の概要: OBJECT 3DIT: Language-guided 3D-aware Image Editing
- arxiv url: http://arxiv.org/abs/2307.11073v1
- Date: Thu, 20 Jul 2023 17:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 11:38:20.259934
- Title: OBJECT 3DIT: Language-guided 3D-aware Image Editing
- Title(参考訳): OBJECT 3DIT:言語誘導型3D対応画像編集
- Authors: Oscar Michel, Anand Bhattad, Eli VanderBilt, Ranjay Krishna, Aniruddha
Kembhavi, Tanmay Gupta
- Abstract要約: 既存の画像編集ツールは、画像が投影される基礎となる3D幾何学を無視している。
画像中のオブジェクトは、下層の3Dシーンの文脈で、言語命令に従って編集されるべきである。
我々は,手続き的に生成された3Dシーンから作成した400Kの編集例からなるデータセットOBJECTをリリースした。
私たちのモデルでは、周囲の物体、表面、照明条件、影、物理的に表現可能な物体構成など、シーン全体の3D構成を理解する能力が印象的です。
- 参考スコア(独自算出の注目度): 27.696507467754877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing image editing tools, while powerful, typically disregard the
underlying 3D geometry from which the image is projected. As a result, edits
made using these tools may become detached from the geometry and lighting
conditions that are at the foundation of the image formation process. In this
work, we formulate the newt ask of language-guided 3D-aware editing, where
objects in an image should be edited according to a language instruction in
context of the underlying 3D scene. To promote progress towards this goal, we
release OBJECT: a dataset consisting of 400K editing examples created from
procedurally generated 3D scenes. Each example consists of an input image,
editing instruction in language, and the edited image. We also introduce 3DIT :
single and multi-task models for four editing tasks. Our models show impressive
abilities to understand the 3D composition of entire scenes, factoring in
surrounding objects, surfaces, lighting conditions, shadows, and
physically-plausible object configurations. Surprisingly, training on only
synthetic scenes from OBJECT, editing capabilities of 3DIT generalize to
real-world images.
- Abstract(参考訳): 既存の画像編集ツールは強力だが、画像が投影される基礎となる3D幾何学は無視される。
その結果、これらのツールを用いた編集は、画像形成プロセスの基礎となる幾何学的条件や照明条件から切り離される可能性がある。
本研究では,画像中のオブジェクトを,下層の3Dシーンの文脈で言語命令に従って編集する,言語誘導型3D対応編集の新規要求を定式化する。
この目標に向けての進展を促進するために、手続き的に生成された3Dシーンから作成される400Kの編集例からなるデータセットOBJECTをリリースする。
それぞれの例は、入力画像、言語による編集命令、および編集画像からなる。
4つの編集タスクのためのシングルおよびマルチタスクモデルである3ditも紹介する。
私たちのモデルでは、周囲の物体、表面、照明条件、影、物理的に表現可能な物体構成など、シーン全体の3D構成を理解する能力が印象的です。
驚くべきことに、3DITの編集能力は、OBJECTの合成シーンのみのトレーニングを現実のイメージに一般化する。
関連論文リスト
- DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題を解決するための確立されたパラダイムは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
これは、神経放射場のような計算コストのかかる3D表現を更新する必要があるため、しばしば遅くなる。
そこで我々は,これらの問題に2つの方法で対処する手法であるDirect Gaussian Editor (DGE)を導入する。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。
これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文 参考訳(メタデータ) (2024-01-02T18:59:35Z) - Plasticine3D: Non-rigid 3D editting with text guidance [24.75903764018142]
プラスチック3Dは、汎用的で、高忠実で、フォトリアリスティックで、制御可能な非剛性編集パイプラインである。
本研究は, 編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し, より詳細な, フォトリアリスティックな結果を得る。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - gCoRF: Generative Compositional Radiance Fields [80.45269080324677]
オブジェクトの3次元生成モデルにより、3次元制御によるフォトリアリスティック画像合成が可能となる。
既存の方法はシーンをグローバルなシーン表現としてモデル化し、シーンの構成的側面を無視します。
本稿では,オブジェクトの各意味部分を独立した3次元表現として表現する合成生成モデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T14:10:44Z) - Style Agnostic 3D Reconstruction via Adversarial Style Transfer [23.304453155586312]
物体の3次元形状を画像から再構成することは、コンピュータビジョンにおける大きな課題である。
本研究では,背景を持つ画像から3次元物体を識別可能な学習法を提案する。
論文 参考訳(メタデータ) (2021-10-20T21:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。