論文の概要: Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.06057v2
- Date: Wed, 07 May 2025 14:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.649981
- Title: Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models
- Title(参考訳): 頭部回転における照明と影--拡散モデルによる実験
- Authors: Andrea Asperti, Gabriele Colasuonno, Antonio Guerra,
- Abstract要約: 本研究は, 様々な照明条件下で連続的な頭部回転を表現できる魅力的な軌道を同定するために, 拡散モデルの遅延空間を探索する。
我々の研究の重要な貢献は、CelebAデータセットから追加のラベルを生成し、一般的な照明方向に基づいて画像を3つのグループに分類することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately modeling the effects of illumination and shadows during head rotation is critical in computer vision for enhancing image realism and reducing artifacts. This study delves into the latent space of denoising diffusion models to identify compelling trajectories that can express continuous head rotation under varying lighting conditions. A key contribution of our work is the generation of additional labels from the CelebA dataset,categorizing images into three groups based on prevalent illumination direction: left, center, and right. These labels play a crucial role in our approach, enabling more precise manipulations and improved handling of lighting variations. Leveraging a recent embedding technique for Denoising Diffusion Implicit Models (DDIM), our method achieves noteworthy manipulations, encompassing a wide rotation angle of $\pm 30$ degrees, while preserving individual distinct characteristics even under challenging illumination conditions. Our methodology involves computing trajectories that approximate clouds of latent representations of dataset samples with different yaw rotations through linear regression. Specific trajectories are obtained by analyzing subsets of data that share significant attributes with the source image, including light direction. Notably, our approach does not require any specific training of the generative model for the task of rotation; we merely compute and follow specific trajectories in the latent space of a pre-trained face generation model. This article showcases the potential of our approach and its current limitations through a qualitative discussion of notable examples. This study contributes to the ongoing advancements in representation learning and the semantic investigation of the latent space of generative models.
- Abstract(参考訳): 頭部回転中の照明と影の効果を正確にモデル化することは、画像リアリズムの強化とアーティファクトの低減にコンピュータビジョンにおいて重要である。
本研究は, 様々な照明条件下で連続的な頭部回転を表現できる魅力的な軌道を同定するために, 拡散モデルの遅延空間を探索する。
私たちの研究の重要な貢献は、CelebAデータセットから追加のラベルを生成し、一般的な照明方向(左、中央、右)に基づいて画像を3つのグループに分類することです。
これらのラベルは、我々のアプローチにおいて重要な役割を担い、より正確な操作を可能にし、照明のバリエーションの扱いを改善します。
拡散インプリシットモデル (DDIM) の最近の埋め込み技術を利用して, 難解な照明条件下でも個々の特性を保ちながら, 広回転角が$\pm 30$ の範囲を包含し, 注目すべき操作を行う。
提案手法は, 線形回帰によって異なるヨー回転を持つデータセットの潜在表現の雲を近似する軌道の計算を含む。
特定の軌跡は、光方向を含むソース画像と重要な属性を共有するデータのサブセットを分析して得られる。
特に,本手法では回転作業において生成モデルの特定の訓練は必要とせず,事前学習した顔生成モデルの潜在空間における特定の軌跡を計算・追従するだけでよい。
本稿は、注目すべき事例の質的な議論を通じて、我々のアプローチの可能性とその現状の限界について紹介する。
本研究は,表現学習の進展と,生成モデルの潜在空間のセマンティックスタディに寄与する。
関連論文リスト
- Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution [29.744990195972587]
拡散モデルは画像合成に革命をもたらし、近年は重要な研究の関心を集めている。
拡散軌跡に基づく識別アルゴリズムについて検討する。
われわれの手法は、分類に活用できるステップにまたがるパターンの存在を実証する。
論文 参考訳(メタデータ) (2024-11-12T00:20:11Z) - MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations [37.845442465099396]
ほとんどの後処理法は、対象の観測自体から核分裂のモデルを構築している。
本稿では,教師付き深層学習技術を利用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。
本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,高精度なリコールトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-23T09:22:45Z) - Dynamic Addition of Noise in a Diffusion Model for Anomaly Detection [2.209921757303168]
拡散モデルは、名目データ分布を捕捉し、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。
それらの利点にもかかわらず、彼らは様々なスケールの異常、特に欠落した成分全体のような大きな異常をローカライズするのに苦労している。
本稿では,従来の暗黙的条件付け手法であるメングらを拡張し,拡散モデルの能力を高める新しい枠組みを提案する。
2022年は3つの重要な意味を持つ。
論文 参考訳(メタデータ) (2024-01-09T09:57:38Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Single-Image HDR Reconstruction by Learning to Reverse the Camera
Pipeline [100.5353614588565]
本稿では,LDR画像形成パイプラインの領域知識をモデルに組み込むことを提案する。
我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。
提案手法は,最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。