論文の概要: Seeing a Rose in Five Thousand Ways
- arxiv url: http://arxiv.org/abs/2212.04965v2
- Date: Mon, 20 May 2024 20:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 19:40:07.650109
- Title: Seeing a Rose in Five Thousand Ways
- Title(参考訳): 花を五千通り見る
- Authors: Yunzhi Zhang, Shangzhe Wu, Noah Snavely, Jiajun Wu,
- Abstract要約: バラは内在的であり、幾何学、テクスチャ、およびその対象カテゴリーに特有の物質が分布する。
我々は、一つの画像からそのような物体の内在を捉えることを学習する生成モデルを構築した。
提案手法は,本質的な画像分解,形状と画像生成,ビュー合成,ライティングなど,複数のダウンストリームタスクにおいて優れた結果が得られる。
- 参考スコア(独自算出の注目度): 48.39141583352746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is a rose, visually? A rose comprises its intrinsics, including the distribution of geometry, texture, and material specific to its object category. With knowledge of these intrinsic properties, we may render roses of different sizes and shapes, in different poses, and under different lighting conditions. In this work, we build a generative model that learns to capture such object intrinsics from a single image, such as a photo of a bouquet. Such an image includes multiple instances of an object type. These instances all share the same intrinsics, but appear different due to a combination of variance within these intrinsics and differences in extrinsic factors, such as pose and illumination. Experiments show that our model successfully learns object intrinsics (distribution of geometry, texture, and material) for a wide range of objects, each from a single Internet image. Our method achieves superior results on multiple downstream tasks, including intrinsic image decomposition, shape and image generation, view synthesis, and relighting.
- Abstract(参考訳): 視覚的に、バラとは何か?
バラは内在的であり、幾何学、テクスチャ、およびその対象カテゴリーに特有の物質が分布する。
これらの固有の性質を知ることで、異なる大きさと形状のバラを異なるポーズで、異なる照明条件下でレンダリングすることができる。
本研究では,花束の写真など,一つの画像からそのような物体の内在を捉えることを学習する生成モデルを構築する。
このようなイメージには、オブジェクトタイプの複数のインスタンスが含まれている。
これらの例は全て同じ内在論を共有しているが、これらの内在論におけるばらつきと、ポーズや照明のような外在的要因の違いにより異なるように見える。
実験により,インターネット画像から対象物(形状,テクスチャ,素材の分布)を多種多様に学習することに成功した。
提案手法は,本質的な画像分解,形状と画像生成,ビュー合成,ライティングなど,複数のダウンストリームタスクにおいて優れた結果が得られる。
関連論文リスト
- Synthesis and Perceptual Scaling of High Resolution Natural Images Using Stable Diffusion [0.0]
我々は、6つのカテゴリから18個のオブジェクトを持つ写真リアル画像のカスタム刺激セットを開発する。
各オブジェクトに対して、知覚連続体に沿って順序付けられた10のグレードの変種を生成しました。
このイメージセットは、視覚知覚、注意、短期記憶、長期記憶の研究に注目されている。
論文 参考訳(メタデータ) (2024-10-16T20:49:19Z) - Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering [56.68286440268329]
現実世界のシーンの画像に仮想オブジェクトを正しく挿入するには、シーンの照明、幾何学、材料を深く理解する必要がある。
本稿では,物理ベースの逆レンダリングプロセスへのガイダンスとして,パーソナライズされた大規模拡散モデルを提案する。
本手法は,シーンライティングとトーンマッピングのパラメータを復元し,任意の仮想オブジェクトの光リアルな構成を室内や屋外のシーンの単一フレームやビデオで再現する。
論文 参考訳(メタデータ) (2024-08-19T05:15:45Z) - Compositional Image Decomposition with Diffusion Models [70.07406583580591]
本稿では,イメージを構成成分に分解する手法を提案する。
我々のアプローチであるDecomp Diffusionは、イメージ内の異なるコンポーネントのセットを推論する教師なしの手法である。
コンポーネントは、影や表情のようなグローバルなシーン記述子から、構成オブジェクトのようなローカルなシーン記述子まで、シーンのさまざまな要因をキャプチャする方法を実証する。
論文 参考訳(メタデータ) (2024-06-27T16:13:34Z) - Are These the Same Apple? Comparing Images Based on Object Intrinsics [27.43687450076182]
オブジェクトの同一性を定義する固有のオブジェクトプロパティに基づいて、純粋に画像の類似性を測定する。
この問題はコンピュータビジョン文学において再同定として研究されている。
そこで本研究では,オブジェクト固有性に基づく画像類似度尺度を探索し,一般対象カテゴリに拡張することを提案する。
論文 参考訳(メタデータ) (2023-11-01T18:00:03Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - IRISformer: Dense Vision Transformers for Single-Image Inverse Rendering
in Indoor Scenes [99.76677232870192]
我々は、高密度な視覚変換器であるIRISformerが、逆レンダリングに必要なシングルタスクとマルチタスクの推論の両方で優れていることを示す。
具体的には,屋内シーンの単一画像から深度,正規度,空間変化アルベド,粗さ,照明を同時に推定するトランスフォーマーアーキテクチャを提案する。
ベンチマークデータセットを用いた評価では、上記の各タスクについて最先端の結果が示され、オブジェクト挿入や物質編集などの応用を、制約のない1つの実画像で実現する。
論文 参考訳(メタデータ) (2022-06-16T19:50:55Z) - Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with
Learned Morph Maps [94.10535575563092]
本稿では,複数の関連ドメインから一貫した画像サンプルを同時に生成できる生成逆ネットワークを提案する。
各ドメインにまたがる共有特徴を学習するポリモルフィックGANと、各ドメインに応じて共有特徴を共有化するためのドメインごとのモルフィック層を提案する。
論文 参考訳(メタデータ) (2022-06-06T21:03:02Z) - Diversifying Semantic Image Synthesis and Editing via Class- and
Layer-wise VAEs [8.528384027684192]
本稿では,ローカルからグローバルレベルの各オブジェクトクラスに対するフレキシブルな制御を可能にする,変動型オートエンコーダフレームワークのクラスおよびレイヤワイズ拡張を提案する。
提案手法は,最先端の手法と比較して,可塑性かつ多彩な画像を生成する。
論文 参考訳(メタデータ) (2021-06-25T04:12:05Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。