論文の概要: BlobGAN: Spatially Disentangled Scene Representations
- arxiv url: http://arxiv.org/abs/2205.02837v1
- Date: Thu, 5 May 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 15:33:38.779844
- Title: BlobGAN: Spatially Disentangled Scene Representations
- Title(参考訳): BlobGAN:空間的に混乱したシーン表現
- Authors: Dave Epstein, Taesung Park, Richard Zhang, Eli Shechtman, Alexei A.
Efros
- Abstract要約: 本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
- 参考スコア(独自算出の注目度): 67.60387150586375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an unsupervised, mid-level representation for a generative model
of scenes. The representation is mid-level in that it is neither per-pixel nor
per-image; rather, scenes are modeled as a collection of spatial, depth-ordered
"blobs" of features. Blobs are differentiably placed onto a feature grid that
is decoded into an image by a generative adversarial network. Due to the
spatial uniformity of blobs and the locality inherent to convolution, our
network learns to associate different blobs with different entities in a scene
and to arrange these blobs to capture scene layout. We demonstrate this
emergent behavior by showing that, despite training without any supervision,
our method enables applications such as easy manipulation of objects within a
scene (e.g., moving, removing, and restyling furniture), creation of feasible
scenes given constraints (e.g., plausible rooms with drawers at a particular
location), and parsing of real-world images into constituent parts. On a
challenging multi-category dataset of indoor scenes, BlobGAN outperforms
StyleGAN2 in image quality as measured by FID. See our project page for video
results and interactive demo: http://www.dave.ml/blobgan
- Abstract(参考訳): シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現はピクセル単位でも画像単位でもないという点で中間レベルであり、むしろシーンは、空間的、深さ順に並べられた特徴の集まりとしてモデル化されている。
ブロブは、生成的な敵ネットワークによって画像にデコードされる特徴グリッド上に微分可能に配置される。
ブロブの空間的均一性と畳み込みに固有の局所性により,ネットワークは異なるブロブとシーン内の異なるエンティティを関連付け,これらのブロブを配置してシーンレイアウトをキャプチャする。
このような創発的行動は, 現場内の物体の操作(移動, 取り外し, 家具の復元など)や制約のある場面(例えば, 特定の場所に引き出しのある部屋)の作成, 現実世界の画像を構成部品に解析することなど, いかなる監督もせずにトレーニングを行うことによっても実現可能であることを示す。
屋内シーンの挑戦的なマルチカテゴリデータセットでは、BlobGANはFIDによって測定された画像品質でStyleGAN2を上回っている。
ビデオ結果とインタラクティブなデモについては、プロジェクトのページをご覧ください。
関連論文リスト
- Moving Off-the-Grid: Scene-Grounded Video Representations [44.13534423774967]
自己教師型ビデオ表現モデルであるO Off-the-Grid (MooG) を提示する。
MooGはトークンを"オフ・ザ・グリッド"に移動させ、シーン要素を一貫して表現できるようにします。
我々は,MooGが「オン・ザ・グリッド」ベースラインと比較して,異なるビジョンタスクの強力な基盤を提供することを示す。
論文 参考訳(メタデータ) (2024-11-08T19:26:51Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文 参考訳(メタデータ) (2022-07-21T21:21:10Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。