論文の概要: Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.06057v2
- Date: Wed, 07 May 2025 14:05:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.649981
- Title: Illumination and Shadows in Head Rotation: experiments with Denoising Diffusion Models
- Title(参考訳): 頭部回転における照明と影--拡散モデルによる実験
- Authors: Andrea Asperti, Gabriele Colasuonno, Antonio Guerra,
- Abstract要約: 本研究は, 様々な照明条件下で連続的な頭部回転を表現できる魅力的な軌道を同定するために, 拡散モデルの遅延空間を探索する。
我々の研究の重要な貢献は、CelebAデータセットから追加のラベルを生成し、一般的な照明方向に基づいて画像を3つのグループに分類することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately modeling the effects of illumination and shadows during head rotation is critical in computer vision for enhancing image realism and reducing artifacts. This study delves into the latent space of denoising diffusion models to identify compelling trajectories that can express continuous head rotation under varying lighting conditions. A key contribution of our work is the generation of additional labels from the CelebA dataset,categorizing images into three groups based on prevalent illumination direction: left, center, and right. These labels play a crucial role in our approach, enabling more precise manipulations and improved handling of lighting variations. Leveraging a recent embedding technique for Denoising Diffusion Implicit Models (DDIM), our method achieves noteworthy manipulations, encompassing a wide rotation angle of $\pm 30$ degrees, while preserving individual distinct characteristics even under challenging illumination conditions. Our methodology involves computing trajectories that approximate clouds of latent representations of dataset samples with different yaw rotations through linear regression. Specific trajectories are obtained by analyzing subsets of data that share significant attributes with the source image, including light direction. Notably, our approach does not require any specific training of the generative model for the task of rotation; we merely compute and follow specific trajectories in the latent space of a pre-trained face generation model. This article showcases the potential of our approach and its current limitations through a qualitative discussion of notable examples. This study contributes to the ongoing advancements in representation learning and the semantic investigation of the latent space of generative models.
- Abstract(参考訳): 頭部回転中の照明と影の効果を正確にモデル化することは、画像リアリズムの強化とアーティファクトの低減にコンピュータビジョンにおいて重要である。
本研究は, 様々な照明条件下で連続的な頭部回転を表現できる魅力的な軌道を同定するために, 拡散モデルの遅延空間を探索する。
私たちの研究の重要な貢献は、CelebAデータセットから追加のラベルを生成し、一般的な照明方向(左、中央、右)に基づいて画像を3つのグループに分類することです。
これらのラベルは、我々のアプローチにおいて重要な役割を担い、より正確な操作を可能にし、照明のバリエーションの扱いを改善します。
拡散インプリシットモデル (DDIM) の最近の埋め込み技術を利用して, 難解な照明条件下でも個々の特性を保ちながら, 広回転角が$\pm 30$ の範囲を包含し, 注目すべき操作を行う。
提案手法は, 線形回帰によって異なるヨー回転を持つデータセットの潜在表現の雲を近似する軌道の計算を含む。
特定の軌跡は、光方向を含むソース画像と重要な属性を共有するデータのサブセットを分析して得られる。
特に,本手法では回転作業において生成モデルの特定の訓練は必要とせず,事前学習した顔生成モデルの潜在空間における特定の軌跡を計算・追従するだけでよい。
本稿は、注目すべき事例の質的な議論を通じて、我々のアプローチの可能性とその現状の限界について紹介する。
本研究は,表現学習の進展と,生成モデルの潜在空間のセマンティックスタディに寄与する。
関連論文リスト
- Physically Based Neural LiDAR Resimulation [4.349248791803596]
提案手法は既存の手法に比べて高精度なLiDARシミュレーションを実現する。
提案手法は,高分解能LiDARスキャンをカメラ視点で生成するなど,高度な再現性を示す。
論文 参考訳(メタデータ) (2025-07-15T19:49:44Z) - Nonlocal Retinex-Based Variational Model and its Deep Unfolding Twin for Low-Light Image Enhancement [3.174882428337821]
本稿では,Retinex分解に基づく低照度画像強調のための変分法を提案する。
低照度画像に色補正前処理ステップを適用し、分解時に観察された入力として使用する。
我々は、演算子を学習可能なネットワークに置き換える深層展開モデルを導入することにより、モデルを拡張する。
論文 参考訳(メタデータ) (2025-04-10T14:48:26Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - Tracing the Roots: Leveraging Temporal Dynamics in Diffusion Trajectories for Origin Attribution [29.744990195972587]
拡散モデルは画像合成に革命をもたらし、近年は重要な研究の関心を集めている。
拡散軌跡に基づく識別アルゴリズムについて検討する。
われわれの手法は、分類に活用できるステップにまたがるパターンの存在を実証する。
論文 参考訳(メタデータ) (2024-11-12T00:20:11Z) - MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations [37.845442465099396]
ほとんどの後処理法は、対象の観測自体から核分裂のモデルを構築している。
本稿では,教師付き深層学習技術を利用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。
本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,高精度なリコールトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-23T09:22:45Z) - Retinex-Diffusion: On Controlling Illumination Conditions in Diffusion Models via Retinex Theory [19.205929427075965]
我々は,拡散モデルをブラックボックス画像レンダリングとして概念化し,そのエネルギー関数を画像形成モデルに沿って戦略的に分解する。
これは、キャストシャドウ、ソフトシャドウ、反射間など、現実的な照明効果を持つ画像を生成する。
論文 参考訳(メタデータ) (2024-07-29T03:15:07Z) - Dynamic Addition of Noise in a Diffusion Model for Anomaly Detection [2.209921757303168]
拡散モデルは、名目データ分布を捕捉し、再構成を通して異常を識別することで、異常検出に有用な応用を見出した。
それらの利点にもかかわらず、彼らは様々なスケールの異常、特に欠落した成分全体のような大きな異常をローカライズするのに苦労している。
本稿では,従来の暗黙的条件付け手法であるメングらを拡張し,拡散モデルの能力を高める新しい枠組みを提案する。
2022年は3つの重要な意味を持つ。
論文 参考訳(メタデータ) (2024-01-09T09:57:38Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Improving Lens Flare Removal with General Purpose Pipeline and Multiple
Light Sources Recovery [69.71080926778413]
フレアアーティファクトは、画像の視覚的品質と下流のコンピュータビジョンタスクに影響を与える。
現在の方法では、画像信号処理パイプラインにおける自動露光やトーンマッピングは考慮されていない。
本稿では、ISPを再検討し、より信頼性の高い光源回収戦略を設計することで、レンズフレア除去性能を向上させるソリューションを提案する。
論文 参考訳(メタデータ) (2023-08-31T04:58:17Z) - A Variational Perspective on Solving Inverse Problems with Diffusion
Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。
しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。
そこで我々は,真の後続分布を近似する設計手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T23:00:47Z) - TensoIR: Tensorial Inverse Rendering [51.57268311847087]
テンソルIRはテンソル分解とニューラルフィールドに基づく新しい逆レンダリング手法である。
TensoRFは、放射場モデリングのための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-04-24T21:39:13Z) - NeFII: Inverse Rendering for Reflectance Decomposition with Near-Field
Indirect Illumination [48.42173911185454]
逆レンダリング手法は、多視点RGB画像から幾何学、材料、照明を推定することを目的としている。
本稿では,多視点画像から材料と照明を分解するエンドツーエンドの逆レンダリングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-29T12:05:19Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z) - Image Embedding for Denoising Generative Models [0.0]
逆拡散過程の決定論的性質から拡散入射モデルに着目する。
本研究の副次として,拡散モデルの潜伏空間の構造についてより深い知見を得た。
論文 参考訳(メタデータ) (2022-12-30T17:56:07Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Single-Image HDR Reconstruction by Learning to Reverse the Camera
Pipeline [100.5353614588565]
本稿では,LDR画像形成パイプラインの領域知識をモデルに組み込むことを提案する。
我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。
提案手法は,最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。