論文の概要: Object-Centric Image Generation with Factored Depths, Locations, and
Appearances
- arxiv url: http://arxiv.org/abs/2004.00642v1
- Date: Wed, 1 Apr 2020 18:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 17:53:52.073755
- Title: Object-Centric Image Generation with Factored Depths, Locations, and
Appearances
- Title(参考訳): 深度, 位置, 外観を考慮した物体中心画像生成
- Authors: Titas Anciukevicius, Christoph H. Lampert, Paul Henderson
- Abstract要約: 本稿では,画像の生成モデルについて,それらが示すオブジェクトの集合に対して明確な理由付けを行う。
私たちのモデルは、オブジェクトを互いに、そして背景から分離する構造化潜在表現を学びます。
オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
- 参考スコア(独自算出の注目度): 30.541425619507184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a generative model of images that explicitly reasons over the set
of objects they show. Our model learns a structured latent representation that
separates objects from each other and from the background; unlike prior works,
it explicitly represents the 2D position and depth of each object, as well as
an embedding of its segmentation mask and appearance. The model can be trained
from images alone in a purely unsupervised fashion without the need for object
masks or depth information. Moreover, it always generates complete objects,
even though a significant fraction of training images contain occlusions.
Finally, we show that our model can infer decompositions of novel images into
their constituent objects, including accurate prediction of depth ordering and
segmentation of occluded parts.
- Abstract(参考訳): 我々は,画像の生成モデルを示し,それらが示す対象の集合を明示的に理由付けする。
我々のモデルは、対象を互いに背景から分離する構造化された潜在表現を学習し、従来の作品とは異なり、各対象の2次元位置と深さを明示的に表現し、また、そのセグメンテーションマスクと外観を埋め込みます。
モデルは、オブジェクトマスクや深度情報を必要とせずに、純粋に教師なしの方法で画像からトレーニングすることができる。
さらに、トレーニング画像のかなりの部分が閉塞を含むにもかかわらず、常に完全なオブジェクトを生成する。
最後に,本モデルは,奥行き順序の正確な予測やオクルード部分のセグメンテーションを含む,新しい画像の分解をその構成対象に推定できることを示す。
関連論文リスト
- Leveraging Foundation Models To learn the shape of semi-fluid deformable objects [0.7895162173260983]
過去10年間、非流動性のある変形可能な物体を特徴付け、操作する研究者によって強い関心が浮かび上がった。
本稿では,動作制御対象の情報として機能する安定な特徴を定義するために,溶接プールの特徴付けの課題に対処する。
基礎モデルからより小さな生成モデルへの知識蒸留の性能は、変形可能な物体のキャラクタリゼーションにおいて顕著な結果を示す。
論文 参考訳(メタデータ) (2024-11-25T13:41:35Z) - SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - Thinking Outside the BBox: Unconstrained Generative Object Compositing [36.86960274923344]
本稿では,制約のない生成物合成の新しい問題を提案する。
私たちの第一種モデルでは、マスクの向こう側にある影や反射などの物体効果を生成できます。
我々のモデルは、様々な品質指標やユーザスタディにおいて、既存のオブジェクト配置や合成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-09-06T18:42:30Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Compositional Scene Modeling with Global Object-Centric Representations [44.43366905943199]
人間は、メモリ内の標準画像に基づいて閉塞された部分を完了させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。
本稿では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T14:36:36Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。
本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文 参考訳(メタデータ) (2021-04-12T11:37:23Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。