論文の概要: Head Rotation in Denoising Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.06057v1
- Date: Fri, 11 Aug 2023 10:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:24:52.993246
- Title: Head Rotation in Denoising Diffusion Models
- Title(参考訳): 消音拡散モデルにおける頭部回転
- Authors: Andrea Asperti, Gabriele Colasuonno, Antonio Guerra
- Abstract要約: 本研究は,最も複雑な編集作業の1つである顔の回転に着目した。
提案手法は,データセットの潜在表現の雲を近似するトラジェクトリの計算を利用する。
特定のトラジェクトリは、ソース画像と重要な属性を共有するデータのサブセットに解析を限定することで得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Denoising Diffusion Models (DDM) are emerging as the cutting-edge technology
in the realm of deep generative modeling, challenging the dominance of
Generative Adversarial Networks. However, effectively exploring the latent
space's semantics and identifying compelling trajectories for manipulating and
editing important attributes of the generated samples remains challenging,
primarily due to the high-dimensional nature of the latent space. In this
study, we specifically concentrate on face rotation, which is known to be one
of the most intricate editing operations. By leveraging a recent embedding
technique for Denoising Diffusion Implicit Models (DDIM), we achieve, in many
cases, noteworthy manipulations encompassing a wide rotation angle of $\pm
30^o$, preserving the distinct characteristics of the individual. Our
methodology exploits the computation of trajectories approximating clouds of
latent representations of dataset samples with different yaw rotations through
linear regression. Specific trajectories are obtained by restricting the
analysis to subsets of data sharing significant attributes with the source
image. One of these attributes is the light provenance: a byproduct of our
research is a labeling of CelebA, categorizing images into three major groups
based on the illumination direction: left, center, and right.
- Abstract(参考訳): Denoising Diffusion Models (DDM) は、深層生成モデリングの領域における最先端技術として登場し、ジェネレーティブ・ディフュージョン・ネットワークの優位性に挑戦している。
しかし、潜在空間のセマンティクスを効果的に探求し、生成したサンプルの重要な属性を操作・編集するための魅力的な軌跡を特定することは、主に潜在空間の高次元の性質のために困難である。
本研究では,最も複雑な編集作業の一つである顔の回転に着目した。
近年の拡散暗黙モデル (ddim) の埋め込み手法を応用し, 多くの場合, 回転角$\pm 30^o$ を包含し, 個々人の特性を保ちながら, 注目に値する操作を実現する。
本手法は, 線形回帰により, 異なるヨー回転を持つデータサンプルの潜在表現の雲を近似する軌道の計算を行う。
特定のトラジェクトリは、ソース画像と重要な属性を共有するデータのサブセットに解析を限定することで得られる。
私たちの研究の副産物はCelebAのラベル付けであり、照明方向(左、中央、右)に基づいて画像を3つの主要なグループに分類する。
関連論文リスト
- Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution [29.744990195972587]
拡散モデルは画像合成に革命をもたらし、近年は重要な研究の関心を集めている。
拡散軌跡に基づく識別アルゴリズムについて検討する。
われわれの手法は、分類に活用できるステップにまたがるパターンの存在を実証する。
論文 参考訳(メタデータ) (2024-11-12T00:20:11Z) - MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations [37.845442465099396]
ほとんどの後処理法は、対象の観測自体から核分裂のモデルを構築している。
本稿では,教師付き深層学習技術を利用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。
本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,高精度なリコールトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-23T09:22:45Z) - Dynamic Addition of Noise in a Diffusion Model for Anomaly Detection [2.209921757303168]
拡散モデルは、名目データ分布を捕捉し、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。
それらの利点にもかかわらず、彼らは様々なスケールの異常、特に欠落した成分全体のような大きな異常をローカライズするのに苦労している。
本稿では,従来の暗黙的条件付け手法であるメングらを拡張し,拡散モデルの能力を高める新しい枠組みを提案する。
2022年は3つの重要な意味を持つ。
論文 参考訳(メタデータ) (2024-01-09T09:57:38Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Single-Image HDR Reconstruction by Learning to Reverse the Camera
Pipeline [100.5353614588565]
本稿では,LDR画像形成パイプラインの領域知識をモデルに組み込むことを提案する。
我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。
提案手法は,最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。