Fugu-MT 論文翻訳(概要): Appearance Codes using Joint Embedding Learning of Multiple Modalities

論文の概要: Appearance Codes using Joint Embedding Learning of Multiple Modalities

arxiv url: http://arxiv.org/abs/2311.11427v1
Date: Sun, 19 Nov 2023 21:24:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 20:34:16.021775
Title: Appearance Codes using Joint Embedding Learning of Multiple Modalities
Title（参考訳）: 複数モーダルの同時埋め込み学習による出現コード
Authors: Alex Zhang and Evan Dogariu
Abstract要約: このテクニックの大きな制限は、推論のすべてのシーンで、新しい外観コードを再訓練する必要があることである。本研究では,異なるモダリティ間の対照的な損失制約を強制することにより,シーンの外観と構造に対する共同埋め込み空間を学習するフレームワークを提案する。提案手法は,未知の画像に対する外観符号を学習することなく,類似した品質の世代を達成できることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of appearance codes in recent work on generative modeling has enabled novel view renders with variable appearance and illumination, such as day-time and night-time renders of a scene. A major limitation of this technique is the need to re-train new appearance codes for every scene on inference, so in this work we address this problem proposing a framework that learns a joint embedding space for the appearance and structure of the scene by enforcing a contrastive loss constraint between different modalities. We apply our framework to a simple Variational Auto-Encoder model on the RADIATE dataset \cite{sheeny2021radiate} and qualitatively demonstrate that we can generate new renders of night-time photos using day-time appearance codes without additional optimization iterations. Additionally, we compare our model to a baseline VAE that uses the standard per-image appearance code technique and show that our approach achieves generations of similar quality without learning appearance codes for any unseen images on inference.
Abstract（参考訳）: 近年のジェネレーティブ・モデリングにおける外観コードの使用により、シーンの昼夜のレンダリングなど、様々な外観と照明を備えた新しいビューレンダリングが可能となった。この手法の大きな限界は,各シーンにおける新たな外観符号の再学習の必要性であり,異なるモード間のコントラスト的損失制約を強制することにより,シーンの外観と構造に対する共同埋め込み空間を学習するフレームワークを提案する。我々はRADIATEデータセット上の単純な変分オートエンコーダモデルに適用し、付加的な最適化イテレーションなしで夜間画像の新しいレンダリングを生成することができることを定性的に示す。さらに,標準的な画像毎出現コード技術を用いたベースラインvaeと比較し,推定で見当たらない画像の出現コードを学習することなく,同様の品質の世代を実現できることを示す。

関連論文リスト

DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis [63.59932602411222]
DMAlignerは、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークである。条件付き画像生成学習のためのダイナミクス対応拡散訓練手法を提案する。我々は,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
論文参考訳（メタデータ） (2026-02-26T14:00:07Z)
Nighttime Hazy Image Enhancement via Progressively and Mutually Reinforcing Night-Haze Priors [12.516890497421203]
既存の方法は、主に一度に一つのタイプの劣化(例えば、ヘイズや低照度)に対処する。我々は、低照度と迷路の先駆者間で共有されるドメイン知識が相互に強化され、より良い可視性が得られることを観察する。本研究では,夜間の空白画像の視認性を高めるためのフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-05T10:58:02Z)
FROMAT: Multiview Material Appearance Transfer via Few-Shot Self-Attention Adaptation [49.74776147964999]
マルチビュー拡散モデルにおける外観伝達のための軽量適応手法を提案する。提案手法では,入力画像からオブジェクトの同一性と,参照画像に描画された外見の手がかりとを組み合わせ,マルチビュー一貫性のある出力を生成する。
論文参考訳（メタデータ） (2025-12-10T13:06:40Z)
Generating Multi-Image Synthetic Data for Text-to-Image Customization [48.59231755159313]
テキスト・ツー・イメージ・モデルのカスタマイズにより、ユーザーはカスタムのコンセプトを挿入し、目に見えない設定でコンセプトを生成することができる。既存の方法は、コストのかかるテストタイム最適化か、マルチイメージの監督なしにシングルイメージのトレーニングデータセットのトレーニングエンコーダに依存している。両制約に対処する簡単なアプローチを提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:41Z)
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。 IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文参考訳（メタデータ） (2024-12-16T18:52:56Z)
Are CLIP features all you need for Universal Synthetic Image Origin Attribution? [13.96698277726253]
本研究では,大規模な事前学習基盤モデルの特徴を取り入れたフレームワークを提案し,合成画像のオープンセット起点属性を実現する。我々は,低データ体制においても,本手法が顕著な帰属性能をもたらすことを示す。
論文参考訳（メタデータ） (2024-08-17T09:54:21Z)
ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文参考訳（メタデータ） (2024-08-10T08:53:41Z)
Semantically Consistent Video Inpainting with Conditional Diffusion Models [16.42354856518832]
本稿では,条件付きビデオ拡散モデルを用いた問題解決フレームワークを提案する。我々は,コンテキストにおける重要な長距離依存関係をキャプチャする塗装特化サンプリングスキームを導入する。不完全フレーム中の既知の画素を条件付けするための新しい手法を考案する。
論文参考訳（メタデータ） (2024-04-30T23:49:26Z)
CodeEnhance: A Codebook-Driven Approach for Low-Light Image Enhancement [97.95330185793358]
低照度画像強調(LLIE)は、低照度画像を改善することを目的としている。既存の手法では、様々な明るさ劣化からの回復の不確実性と、テクスチャと色情報の喪失という2つの課題に直面している。我々は、量子化された先行値と画像の精細化を利用して、新しいエンハンスメント手法、CodeEnhanceを提案する。
論文参考訳（メタデータ） (2024-04-08T07:34:39Z)
Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文参考訳（メタデータ） (2023-11-30T10:36:19Z)
SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文参考訳（メタデータ） (2023-09-12T15:33:09Z)
Similarity Min-Max: Zero-Shot Day-Night Domain Adaptation [52.923298434948606]
低照度条件は人間の視覚経験を妨げるだけでなく、下流の視覚タスクにおけるモデルの性能を低下させる。この論文は、境界適用性、すなわちゼロショットの昼夜ドメイン適応に関するより複雑なシナリオに挑戦する。我々は、それらを統一された枠組みで考える類似性 min-max パラダイムを提案する。
論文参考訳（メタデータ） (2023-07-17T18:50:15Z)
Few-shot Neural Radiance Fields Under Unconstrained Illumination [40.384916810850385]
入力された多視点画像と様々な照明条件を限定した実用的な環境下での新規ビューイメージの合成に挑戦する。このタスクの先駆的な作業の1つであるNeRFは、制約された照明下で撮影された多視点画像の広範なセットを要求する。我々は,多視点アルベド整合性を利用したExtremeNeRFを提案する。
論文参考訳（メタデータ） (2023-03-21T10:32:27Z)
Enhance Images as You Like with Unpaired Learning [8.104571453311442]
本稿では,低照度から高照度の画像空間における一対多の関係を学習するために,軽量な一経路条件生成対向ネットワーク(cGAN)を提案する。我々のネットワークは、様々な参照画像上に設定された所定の入力条件から、拡張された画像の集合を生成することを学習する。我々のモデルは、ノイズとクリーンなデータセットの完全な教師付き手法と同等に競合する視覚的および定量的な結果を得る。
論文参考訳（メタデータ） (2021-10-04T03:00:44Z)
Crowdsampling the Plenoptic Function [56.10020793913216]
このようなデータから時間変動照明下での新しいビュー合成手法を提案する。本稿では,新しいDeepMPI表現について紹介する。本手法は従来のMPI法と同等のパララックスとビュー依存効果を合成し, 反射率の変化と光の時間変化を同時に補間する。
論文参考訳（メタデータ） (2020-07-30T02:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。