論文の概要: CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2112.05139v1
- Date: Thu, 9 Dec 2021 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:53:28.438151
- Title: CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields
- Title(参考訳): CLIP-NeRF:ニューラルラジアンス場のテキスト・画像駆動マニピュレーション
- Authors: Can Wang and Menglei Chai and Mingming He and Dongdong Chen and Jing
Liao
- Abstract要約: ニューラルレイディアンスフィールド(NeRF)のためのマルチモーダル3次元オブジェクト操作法であるCLIP-NeRFを提案する。
ユーザフレンドリーな方法でNeRFを操作できる統一的なフレームワークを提案する。
我々は、様々なテキストプロンプトや模範画像に関する広範な実験により、我々のアプローチを評価する。
- 参考スコア(独自算出の注目度): 33.43993665841577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CLIP-NeRF, a multi-modal 3D object manipulation method for neural
radiance fields (NeRF). By leveraging the joint language-image embedding space
of the recent Contrastive Language-Image Pre-Training (CLIP) model, we propose
a unified framework that allows manipulating NeRF in a user-friendly way, using
either a short text prompt or an exemplar image. Specifically, to combine the
novel view synthesis capability of NeRF and the controllable manipulation
ability of latent representations from generative models, we introduce a
disentangled conditional NeRF architecture that allows individual control over
both shape and appearance. This is achieved by performing the shape
conditioning via applying a learned deformation field to the positional
encoding and deferring color conditioning to the volumetric rendering stage. To
bridge this disentangled latent representation to the CLIP embedding, we design
two code mappers that take a CLIP embedding as input and update the latent
codes to reflect the targeted editing. The mappers are trained with a
CLIP-based matching loss to ensure the manipulation accuracy. Furthermore, we
propose an inverse optimization method that accurately projects an input image
to the latent codes for manipulation to enable editing on real images. We
evaluate our approach by extensive experiments on a variety of text prompts and
exemplar images and also provide an intuitive interface for interactive
editing. Our implementation is available at
https://cassiepython.github.io/clipnerf/
- Abstract(参考訳): ニューラルレイディアンスフィールド(NeRF)のためのマルチモーダル3次元オブジェクト操作法であるCLIP-NeRFを提案する。
近年のContrastive Language- Image Pre-Training (CLIP) モデルの言語画像の埋め込み空間を活用することで,短いテキストプロンプトや例の画像を用いて,NeRFをユーザフレンドリーに操作できる統一的なフレームワークを提案する。
具体的には, nerfの新しいビュー合成能力と, 生成モデルからの潜在表現の制御可能な操作能力とを組み合わせるために, 形状と外観の両方を個別に制御できる不連続条件付きnerfアーキテクチャを提案する。
学習した変形場を位置符号化に適用し、ボリュームレンダリングステージに色調を遅延させることにより形状条件付けを行う。
この非絡み合ったラテント表現をCLIP埋め込みにブリッジするために、CLIP埋め込みを入力として取り込んだ2つのコードマッパーを設計し、ターゲットの編集を反映するためにラテントコードを更新する。
マッパーはCLIPベースのマッチング損失でトレーニングされ、操作精度が保証される。
さらに,実画像の編集を可能にするために,入力画像を潜時符号に正確に投影する逆最適化手法を提案する。
我々は,様々なテキストプロンプトや模範画像の広範な実験によりアプローチを評価し,インタラクティブな編集のための直感的なインタフェースを提供する。
私たちの実装はhttps://cassiepython.github.io/clipnerf/で利用可能です。
関連論文リスト
- ProteusNeRF: Fast Lightweight NeRF Editing using 3D-Aware Image Context [26.07841568311428]
メモリフットプリントを低く保ちながら、高速で効率的な、非常にシンプルで効果的なニューラルネットワークアーキテクチャを提案する。
我々の表現は、訓練段階における意味的特徴蒸留による簡単なオブジェクト選択を可能にする。
局所的な3D対応画像コンテキストを提案し、ビュー一貫性のある画像編集を容易にし、微調整されたNeRFに抽出する。
論文 参考訳(メタデータ) (2023-10-15T21:54:45Z) - FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural
Radiance Fields [39.57313951313061]
既存の操作方法は広範囲の人的労働を必要とする。
我々のアプローチは、NeRFで再構成された顔を操作するために単一のテキストを必要とするように設計されている。
我々のアプローチは、NeRFで再構成された顔のテキスト駆動による操作に最初に対処するものである。
論文 参考訳(メタデータ) (2023-07-21T08:22:14Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations [75.81725681546071]
Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
論文 参考訳(メタデータ) (2022-10-14T15:06:05Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。