論文の概要: Appearance Codes using Joint Embedding Learning of Multiple Modalities
- arxiv url: http://arxiv.org/abs/2311.11427v1
- Date: Sun, 19 Nov 2023 21:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:34:16.021775
- Title: Appearance Codes using Joint Embedding Learning of Multiple Modalities
- Title(参考訳): 複数モーダルの同時埋め込み学習による出現コード
- Authors: Alex Zhang and Evan Dogariu
- Abstract要約: このテクニックの大きな制限は、推論のすべてのシーンで、新しい外観コードを再訓練する必要があることである。
本研究では,異なるモダリティ間の対照的な損失制約を強制することにより,シーンの外観と構造に対する共同埋め込み空間を学習するフレームワークを提案する。
提案手法は,未知の画像に対する外観符号を学習することなく,類似した品質の世代を達成できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of appearance codes in recent work on generative modeling has enabled
novel view renders with variable appearance and illumination, such as day-time
and night-time renders of a scene. A major limitation of this technique is the
need to re-train new appearance codes for every scene on inference, so in this
work we address this problem proposing a framework that learns a joint
embedding space for the appearance and structure of the scene by enforcing a
contrastive loss constraint between different modalities. We apply our
framework to a simple Variational Auto-Encoder model on the RADIATE dataset
\cite{sheeny2021radiate} and qualitatively demonstrate that we can generate new
renders of night-time photos using day-time appearance codes without additional
optimization iterations. Additionally, we compare our model to a baseline VAE
that uses the standard per-image appearance code technique and show that our
approach achieves generations of similar quality without learning appearance
codes for any unseen images on inference.
- Abstract(参考訳): 近年のジェネレーティブ・モデリングにおける外観コードの使用により、シーンの昼夜のレンダリングなど、様々な外観と照明を備えた新しいビューレンダリングが可能となった。
この手法の大きな限界は,各シーンにおける新たな外観符号の再学習の必要性であり,異なるモード間のコントラスト的損失制約を強制することにより,シーンの外観と構造に対する共同埋め込み空間を学習するフレームワークを提案する。
我々はRADIATEデータセット上の単純な変分オートエンコーダモデルに適用し、付加的な最適化イテレーションなしで夜間画像の新しいレンダリングを生成することができることを定性的に示す。
さらに,標準的な画像毎出現コード技術を用いたベースラインvaeと比較し,推定で見当たらない画像の出現コードを学習することなく,同様の品質の世代を実現できることを示す。
関連論文リスト
- Diffusion Model-Based Image Editing: A Survey [47.78296074510459]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation [52.923298434948606]
低照度条件は人間の視覚経験を妨げるだけでなく、下流の視覚タスクにおけるモデルの性能を低下させる。
この論文は、境界適用性、すなわちゼロショットの昼夜ドメイン適応に関するより複雑なシナリオに挑戦する。
我々は、それらを統一された枠組みで考える類似性 min-max パラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-17T18:50:15Z) - Few-shot Neural Radiance Fields Under Unconstrained Illumination [40.384916810850385]
入力された多視点画像と様々な照明条件を限定した実用的な環境下での新規ビューイメージの合成に挑戦する。
このタスクの先駆的な作業の1つであるNeRFは、制約された照明下で撮影された多視点画像の広範なセットを要求する。
我々は,多視点アルベド整合性を利用したExtremeNeRFを提案する。
論文 参考訳(メタデータ) (2023-03-21T10:32:27Z) - Text-Guided Synthesis of Artistic Images with Retrieval-Augmented
Diffusion Models [12.676356746752894]
検索拡張拡散モデル(RDM)に基づく代替手法を提案する。
検索データベースを、特定の視覚スタイルの画像のみを含む、より専門的なデータベースに置き換える。
これにより、トレーニング後の一般的なトレーニングモデルに新たな方法が提供され、それによって特定の視覚スタイルが指定される。
論文 参考訳(メタデータ) (2022-07-26T16:56:51Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Enhance Images as You Like with Unpaired Learning [8.104571453311442]
本稿では,低照度から高照度の画像空間における一対多の関係を学習するために,軽量な一経路条件生成対向ネットワーク(cGAN)を提案する。
我々のネットワークは、様々な参照画像上に設定された所定の入力条件から、拡張された画像の集合を生成することを学習する。
我々のモデルは、ノイズとクリーンなデータセットの完全な教師付き手法と同等に競合する視覚的および定量的な結果を得る。
論文 参考訳(メタデータ) (2021-10-04T03:00:44Z) - Crowdsampling the Plenoptic Function [56.10020793913216]
このようなデータから時間変動照明下での新しいビュー合成手法を提案する。
本稿では,新しいDeepMPI表現について紹介する。
本手法は従来のMPI法と同等のパララックスとビュー依存効果を合成し, 反射率の変化と光の時間変化を同時に補間する。
論文 参考訳(メタデータ) (2020-07-30T02:52:10Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。