論文の概要: SAT3D: Image-driven Semantic Attribute Transfer in 3D
- arxiv url: http://arxiv.org/abs/2408.01664v1
- Date: Sat, 3 Aug 2024 04:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:00:53.321117
- Title: SAT3D: Image-driven Semantic Attribute Transfer in 3D
- Title(参考訳): SAT3D:3Dにおける画像駆動セマンティック属性伝達
- Authors: Zhijun Zhai, Zengmao Wang, Xiaoxiao Long, Kaixuan Zhou, Bo Du,
- Abstract要約: 参照画像からセマンティック属性を編集し,画像駆動型セマンティック属性変換法を3D(SAT3D)で提案する。
指導のために、各属性をフレーズベースの記述子群に関連付け、定量測定モジュール(QMM)を開発する。
本稿では,複数の領域にまたがる3次元属性変換結果について述べるとともに,従来の2次元画像編集手法との比較を行う。
- 参考スコア(独自算出の注目度): 31.087615253643975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: GAN-based image editing task aims at manipulating image attributes in the latent space of generative models. Most of the previous 2D and 3D-aware approaches mainly focus on editing attributes in images with ambiguous semantics or regions from a reference image, which fail to achieve photographic semantic attribute transfer, such as the beard from a photo of a man. In this paper, we propose an image-driven Semantic Attribute Transfer method in 3D (SAT3D) by editing semantic attributes from a reference image. For the proposed method, the exploration is conducted in the style space of a pre-trained 3D-aware StyleGAN-based generator by learning the correlations between semantic attributes and style code channels. For guidance, we associate each attribute with a set of phrase-based descriptor groups, and develop a Quantitative Measurement Module (QMM) to quantitatively describe the attribute characteristics in images based on descriptor groups, which leverages the image-text comprehension capability of CLIP. During the training process, the QMM is incorporated into attribute losses to calculate attribute similarity between images, guiding target semantic transferring and irrelevant semantics preserving. We present our 3D-aware attribute transfer results across multiple domains and also conduct comparisons with classical 2D image editing methods, demonstrating the effectiveness and customizability of our SAT3D.
- Abstract(参考訳): GANに基づく画像編集タスクは、生成モデルの潜在空間における画像属性を操作することを目的としている。
以前の2Dおよび3D認識アプローチのほとんどは、主に、男性の写真からのひげのような写真上の意味的属性の移動を達成できない参照画像から、あいまいな意味論や領域を持つ画像の属性を編集することに焦点を当てている。
本稿では、参照画像からのセマンティック属性を編集し、3D(SAT3D)における画像駆動のセマンティック属性変換法を提案する。
提案手法では,事前学習した3D対応スタイルGANベースジェネレータのスタイル空間において,セマンティック属性とスタイルコードチャネルの相関関係を学習して探索を行う。
指導のために,各属性を句ベースの記述子群に関連付けるとともに,CLIPの画像テキスト理解能力を活用した記述子群に基づく画像の属性特性を定量的に記述する定量的計測モジュール(QMM)を開発する。
トレーニングプロセス中、QMMは属性損失に組み込まれ、画像間の属性類似性、ターゲットセマンティックトランスファーの誘導、無関係セマンティックス保存の導出を行う。
本稿では,複数の領域にまたがる属性伝達結果と従来の2次元画像編集手法との比較を行い,SAT3Dの有効性とカスタマイズ性を示す。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Efficient 3D-Aware Facial Image Editing via Attribute-Specific Prompt Learning [40.6806832534633]
本稿では,属性特異的なプロンプト学習に基づく効率的な3次元顔編集フレームワークを提案する。
提案フレームワークは,属性固有の特徴を維持しつつ,3次元認識とビューの整合性を備えた高品質な画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T18:01:30Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Semantic Validation in Structure from Motion [0.0]
Structure from Motion (SfM) は、一連の投影計測からシーンの3次元構造を復元する過程である。
SfMは、特徴検出とマッチング、カメラモーション推定、および3D構造の回復の3つの主要なステップから構成される。
このプロジェクトは3次元SfMモデルの検証を改善するための新しい方法を提供する。
論文 参考訳(メタデータ) (2023-04-05T12:58:59Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - MulGAN: Facial Attribute Editing by Exemplar [2.272764591035106]
遅延特徴空間の予め定義された領域に画像の属性関連情報をエンコードする手法では、逆の属性を持つ一対の画像を列車モデルへの入力として利用する。
それらには、3つの制限がある:(1)モデルが入力として反対の属性を持つ一対のイメージを使用して訓練されなければならない;(2)複数の属性を例によって編集する能力の弱い;(3)画像生成の質が悪い。
論文 参考訳(メタデータ) (2019-12-28T04:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。