Fugu-MT 論文翻訳(概要): 3D-GOI: 3D GAN Omni-Inversion for Multifaceted and Multi-object Editing

論文の概要: 3D-GOI: 3D GAN Omni-Inversion for Multifaceted and Multi-object Editing

arxiv url: http://arxiv.org/abs/2311.12050v5
Date: Tue, 23 Jul 2024 04:01:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 12:19:26.418669
Title: 3D-GOI: 3D GAN Omni-Inversion for Multifaceted and Multi-object Editing
Title（参考訳）: 3D-GOI:多面・多対象編集のための3D GAN Omni-Inversion
Authors: Haoran Li, Long Ma, Haolin Shi, Yanbin Hao, Yong Liao, Lechao Cheng, Pengyuan Zhou,
Abstract要約: 複数オブジェクト上のアフィン情報の多面的編集を可能にする3D編集フレームワークである3D-GOIを提案する。 3D-GOIは、有名な3D GANであるGIRAFFEによって制御される属性コードの多さを反転させることで、複雑な編集機能を実現する。
参考スコア（独自算出の注目度）: 25.442924637806676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The current GAN inversion methods typically can only edit the appearance and shape of a single object and background while overlooking spatial information. In this work, we propose a 3D editing framework, 3D-GOI, to enable multifaceted editing of affine information (scale, translation, and rotation) on multiple objects. 3D-GOI realizes the complex editing function by inverting the abundance of attribute codes (object shape/appearance/scale/rotation/translation, background shape/appearance, and camera pose) controlled by GIRAFFE, a renowned 3D GAN. Accurately inverting all the codes is challenging, 3D-GOI solves this challenge following three main steps. First, we segment the objects and the background in a multi-object image. Second, we use a custom Neural Inversion Encoder to obtain coarse codes of each object. Finally, we use a round-robin optimization algorithm to get precise codes to reconstruct the image. To the best of our knowledge, 3D-GOI is the first framework to enable multifaceted editing on multiple objects. Both qualitative and quantitative experiments demonstrate that 3D-GOI holds immense potential for flexible, multifaceted editing in complex multi-object scenes.Our project and code are released at https://3d-goi.github.io .
Abstract（参考訳）: 現在のGANインバージョン法は、通常、空間情報を見下ろしながら、単一のオブジェクトと背景の外観と形状を編集するだけである。本研究では,アフィン情報(スケール,翻訳,回転)の多面的編集を可能にする3D編集フレームワークである3D-GOIを提案する。 3D-GOIは、有名な3D GANであるGIRAFFEによって制御された属性コード(オブジェクト形状/外観/スケール/回転/変換、背景形状/外観、カメラポーズ)を反転させることで、複雑な編集機能を実現する。 3D-GOIは、この課題を3つの主要なステップに従って解決する。まず、対象物と背景を多目的画像に分割する。第二に、各オブジェクトの粗いコードを取得するために、カスタムのNeural Inversion Encoderを使用します。最後に、ラウンドロビン最適化アルゴリズムを用いて正確なコードを取得し、画像を再構成する。私たちの知る限りでは、3D-GOIは複数のオブジェクトで多面的な編集を可能にする最初のフレームワークです。定性的かつ定量的な実験は、3D-GOIが複雑な多目的シーンで柔軟で多面的な編集の可能性を秘めていることを示している。

関連論文リスト

MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration [29.657854912416038]
ユーザクエリから3次元制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。このマルチモーダルエージェントパイプラインは、人間のプロのコラボレーションを模倣することにより、3D制御可能なオブジェクトによる画像の効果的かつ自動生成を容易にする。我々はT2I-3DisBench(3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。
論文参考訳（メタデータ） (2024-08-20T07:37:23Z)
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images [72.70883914827687]
Tailor3Dは、編集可能なデュアルサイドイメージからカスタマイズされた3Dアセットを作成する新しいパイプラインである。 3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
論文参考訳（メタデータ） (2024-07-08T17:59:55Z)
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。 2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文参考訳（メタデータ） (2024-05-28T17:59:01Z)
DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文参考訳（メタデータ） (2024-05-09T14:34:05Z)
DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文参考訳（メタデータ） (2024-04-29T17:59:30Z)
Designing a 3D-Aware StyleNeRF Encoder for Face Editing [15.303426697795143]
本稿では,強力なStyleNeRFモデルに基づくGANインバージョンと顔編集のための3D対応エンコーダを提案する。提案する3Daエンコーダは、パラメトリックな3次元顔モデルと学習可能な詳細表現モデルを組み合わせて、幾何学、テクスチャ、ビュー方向コードを生成する。
論文参考訳（メタデータ） (2023-02-19T03:32:28Z)
Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文参考訳（メタデータ） (2022-12-14T18:49:50Z)
ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文参考訳（メタデータ） (2022-11-22T06:19:37Z)
CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文参考訳（メタデータ） (2020-04-27T17:53:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。