論文の概要: Structured Generative Models for Scene Understanding
- arxiv url: http://arxiv.org/abs/2302.03531v1
- Date: Tue, 7 Feb 2023 15:23:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:56:24.340966
- Title: Structured Generative Models for Scene Understanding
- Title(参考訳): シーン理解のための構造化生成モデル
- Authors: Christopher K. I. Williams
- Abstract要約: 本稿では,シーン理解にEmphstructured Generative Model(SGM)を用いることを論じる。
SGMのアプローチは、それが構成的かつ生成的であり、解釈可能性をもたらすという利点がある。
SGMの最も難しい問題は、オブジェクト、照明とカメラパラメータ、および1つまたは複数の画像からなる入力からのシーン相互関連性である。
- 参考スコア(独自算出の注目度): 6.03459316244618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues for the use of \emph{structured generative models}
(SGMs) for scene understanding. This requires the reconstruction of a 3D scene
from an input image, whereby the contents of the image are causally explained
in terms of models of instantiated objects, each with their own type, shape,
appearance and pose, along with global variables like scene lighting and camera
parameters. This approach also requires scene models which account for the
co-occurrences and inter-relationships of objects in a scene. The SGM approach
has the merits that it is compositional and generative, which lead to
interpretability.
To pursue the SGM agenda, we need models for objects and scenes, and
approaches to carry out inference. We first review models for objects, which
include ``things'' (object categories that have a well defined shape), and
``stuff'' (categories which have amorphous spatial extent). We then move on to
review \emph{scene models} which describe the inter-relationships of objects.
Perhaps the most challenging problem for SGMs is \emph{inference} of the
objects, lighting and camera parameters, and scene inter-relationships from
input consisting of a single or multiple images. We conclude with a discussion
of issues that need addressing to advance the SGM agenda.
- Abstract(参考訳): 本稿では,シーン理解に<emph{structured generative model} (SGM) を用いることを論じる。
これには入力画像からの3dシーンの再構築が必要であり、画像の内容は、それぞれが独自のタイプ、形状、外観、ポーズを持つインスタンス化されたオブジェクトのモデルと、シーンライティングやカメラパラメータなどのグローバル変数によって説明される。
このアプローチにはシーン内のオブジェクトの共起と相互関係を考慮したシーンモデルも必要となる。
SGMアプローチは、それが構成的で生成的であり、解釈可能性をもたらすという利点がある。
SGMアジェンダを追求するには、オブジェクトやシーンのモデルと、推論を実行するためのアプローチが必要です。
まず,<things' (よく定義された形状を持つ対象) と ``stuff'' (アモルファスな空間範囲を持つカテゴリー) を含む対象のモデルについて検討した。
次に、オブジェクトの相互関係を記述する 'emph{scene model} をレビューします。
おそらくSGMの最も難しい問題は、オブジェクトのemph{inference}、照明とカメラパラメータ、および1つまたは複数の画像からなる入力からのシーン相互関係である。
我々は、SGMアジェンダを進めるために対処する必要がある問題についての議論で締めくくります。
関連論文リスト
- GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z) - Object-Centric Image Generation with Factored Depths, Locations, and
Appearances [30.541425619507184]
本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。
私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。
オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-01T18:00:11Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。